回答編集履歴

1

d

2018/10/30 14:06

投稿

tiitoi
tiitoi

スコア21956

test CHANGED
@@ -35,3 +35,63 @@
35
35
  どうしてもブラウザでアクセスしたとき同様に Javascript を動く環境を再現して、スクレイピングしたいのであれば、以下の方法もあるようです。
36
36
 
37
37
  [scrapy-splashを使ってJavaScript利用ページを簡単スクレイピング](http://amacbee.hatenablog.com/entry/2016/12/01/210436)
38
+
39
+
40
+
41
+ ## 追記
42
+
43
+
44
+
45
+ 方法について記載してなかったので追記
46
+
47
+
48
+
49
+ > 以下の環境で、Xpathにてテキスト(例: Tarzan(ターザン) 2018年11月8日号 No.752※)が正常に抽出できる方法を教えていただけますでしょうか?
50
+
51
+
52
+
53
+ `//span[@class="a-size-small"]/text()` で取得できます。
54
+
55
+
56
+
57
+ ```
58
+
59
+ In [2]: response.xpath('//span[@class="a-size-small"]/text()').extract()
60
+
61
+ Out[2]:
62
+
63
+ ['日本国紀',
64
+
65
+ 'anan(アンアン) 2018/11/14号 No.2126',
66
+
67
+ 'Tarzan(ターザン) 2018年11月8日号 No.752',
68
+
69
+ 'Fire TV Stick',
70
+
71
+ 'Amazon',
72
+
73
+ '人間カード(1)',
74
+
75
+ 'お金2.0\u3000新しい経済のルールと生き方 (NewsPicks Book)',
76
+
77
+ 'GIGANT(2) (ビッグコミックス)',
78
+
79
+ '10キロやせて永久キープするダイエット',
80
+
81
+ '異世界迷宮でハーレムを(3) (角川コミックス・エース)',
82
+
83
+ '世界史とつなげて学べ 超日本史\u3000日本人を覚醒させる教科書が教えない歴史',
84
+
85
+ '金色のガッシュ!! 完全版(1)',
86
+
87
+ '聖者無双(3) (シリウスコミックス)',
88
+
89
+ '大人も眠れないほど面白い宇宙の雑学~17億5000万年後の地球の未来は?!~',
90
+
91
+ '傷つきやすい人のための\u3000図太くなれる禅思考',
92
+
93
+ '宇宙兄弟(34) (モーニングコミックス)',
94
+
95
+ 以下略
96
+
97
+ ```