teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

1

d

2018/10/30 14:06

投稿

tiitoi
tiitoi

スコア21960

answer CHANGED
@@ -16,4 +16,34 @@
16
16
  解決策としては、Javascript がなくても書籍の一覧自体は表示されていたので、他の目印でセレクタを作ればよいでしょう。
17
17
 
18
18
  どうしてもブラウザでアクセスしたとき同様に Javascript を動く環境を再現して、スクレイピングしたいのであれば、以下の方法もあるようです。
19
- [scrapy-splashを使ってJavaScript利用ページを簡単スクレイピング](http://amacbee.hatenablog.com/entry/2016/12/01/210436)
19
+ [scrapy-splashを使ってJavaScript利用ページを簡単スクレイピング](http://amacbee.hatenablog.com/entry/2016/12/01/210436)
20
+
21
+ ## 追記
22
+
23
+ 方法について記載してなかったので追記
24
+
25
+ > 以下の環境で、Xpathにてテキスト(例: Tarzan(ターザン) 2018年11月8日号 No.752※)が正常に抽出できる方法を教えていただけますでしょうか?
26
+
27
+ `//span[@class="a-size-small"]/text()` で取得できます。
28
+
29
+ ```
30
+ In [2]: response.xpath('//span[@class="a-size-small"]/text()').extract()
31
+ Out[2]:
32
+ ['日本国紀',
33
+ 'anan(アンアン) 2018/11/14号 No.2126',
34
+ 'Tarzan(ターザン) 2018年11月8日号 No.752',
35
+ 'Fire TV Stick',
36
+ 'Amazon',
37
+ '人間カード(1)',
38
+ 'お金2.0\u3000新しい経済のルールと生き方 (NewsPicks Book)',
39
+ 'GIGANT(2) (ビッグコミックス)',
40
+ '10キロやせて永久キープするダイエット',
41
+ '異世界迷宮でハーレムを(3) (角川コミックス・エース)',
42
+ '世界史とつなげて学べ 超日本史\u3000日本人を覚醒させる教科書が教えない歴史',
43
+ '金色のガッシュ!! 完全版(1)',
44
+ '聖者無双(3) (シリウスコミックス)',
45
+ '大人も眠れないほど面白い宇宙の雑学~17億5000万年後の地球の未来は?!~',
46
+ '傷つきやすい人のための\u3000図太くなれる禅思考',
47
+ '宇宙兄弟(34) (モーニングコミックス)',
48
+ 以下略
49
+ ```