質問編集履歴

1

4/11追記しました

2018/04/10 15:55

投稿

chapin
chapin

スコア80

test CHANGED
File without changes
test CHANGED
@@ -34,7 +34,7 @@
34
34
 
35
35
 
36
36
 
37
- >>> response.xpath('//*[@id="topicsfb"]/div[1]/ul[1]/li[1]/a/text()').extract()
37
+ >>> response.xpath('//*[@id="topicsfb"]/div[1]/ul[1]/li[1]/a/text()').extract()
38
38
 
39
39
  []
40
40
 
@@ -64,7 +64,7 @@
64
64
 
65
65
  ...
66
66
 
67
- >>> response.xpath('//*[@id="images"]/a[2]')
67
+ >>> response.xpath('//*[@id="images"]/a[2]')
68
68
 
69
69
  [<Selector xpath='//*[@id="images"]/a[2]' data='<a href="image2.html">Name: My i
70
70
 
@@ -84,4 +84,14 @@
84
84
 
85
85
 
86
86
 
87
- ここにより詳細な情報を載してください。
87
+ 4/11追
88
+
89
+ ヤフーニュース(co.jp)のスクレイピングができませんと記しましたが、その後原因を調べるためにいろいろ試しました。その途中経過を記します。
90
+
91
+ teratailでメルカリのscrapyができないのでその結果を確認しました。結果は[]のみ(ヤフーニュースと同じ結果。)
92
+
93
+ ヤフーファイナンスで自動取得が禁止されているとのことでしたので確認しました。結果は指定した要素を取得できました。
94
+
95
+ 私の考えでは、スクレイピングが禁止されている対象では、何らかの方法でscrapyが上手く起動せず[]のみ結果が吐き出されるのではないかと思っていましたが、それはないみたいです。
96
+
97
+ yahoo.comのニュースもスクレイピングしてみましたが[]のみの結果が吐き出されました。英文から原因を調べてみようと思います。