回答編集履歴
1
d
answer
CHANGED
@@ -16,4 +16,34 @@
|
|
16
16
|
解決策としては、Javascript がなくても書籍の一覧自体は表示されていたので、他の目印でセレクタを作ればよいでしょう。
|
17
17
|
|
18
18
|
どうしてもブラウザでアクセスしたとき同様に Javascript を動く環境を再現して、スクレイピングしたいのであれば、以下の方法もあるようです。
|
19
|
-
[scrapy-splashを使ってJavaScript利用ページを簡単スクレイピング](http://amacbee.hatenablog.com/entry/2016/12/01/210436)
|
19
|
+
[scrapy-splashを使ってJavaScript利用ページを簡単スクレイピング](http://amacbee.hatenablog.com/entry/2016/12/01/210436)
|
20
|
+
|
21
|
+
## 追記
|
22
|
+
|
23
|
+
方法について記載してなかったので追記
|
24
|
+
|
25
|
+
> 以下の環境で、Xpathにてテキスト(例: Tarzan(ターザン) 2018年11月8日号 No.752※)が正常に抽出できる方法を教えていただけますでしょうか?
|
26
|
+
|
27
|
+
`//span[@class="a-size-small"]/text()` で取得できます。
|
28
|
+
|
29
|
+
```
|
30
|
+
In [2]: response.xpath('//span[@class="a-size-small"]/text()').extract()
|
31
|
+
Out[2]:
|
32
|
+
['日本国紀',
|
33
|
+
'anan(アンアン) 2018/11/14号 No.2126',
|
34
|
+
'Tarzan(ターザン) 2018年11月8日号 No.752',
|
35
|
+
'Fire TV Stick',
|
36
|
+
'Amazon',
|
37
|
+
'人間カード(1)',
|
38
|
+
'お金2.0\u3000新しい経済のルールと生き方 (NewsPicks Book)',
|
39
|
+
'GIGANT(2) (ビッグコミックス)',
|
40
|
+
'10キロやせて永久キープするダイエット',
|
41
|
+
'異世界迷宮でハーレムを(3) (角川コミックス・エース)',
|
42
|
+
'世界史とつなげて学べ 超日本史\u3000日本人を覚醒させる教科書が教えない歴史',
|
43
|
+
'金色のガッシュ!! 完全版(1)',
|
44
|
+
'聖者無双(3) (シリウスコミックス)',
|
45
|
+
'大人も眠れないほど面白い宇宙の雑学~17億5000万年後の地球の未来は?!~',
|
46
|
+
'傷つきやすい人のための\u3000図太くなれる禅思考',
|
47
|
+
'宇宙兄弟(34) (モーニングコミックス)',
|
48
|
+
以下略
|
49
|
+
```
|