質問編集履歴

2

内容

2018/08/20 13:42

投稿

ari1235
ari1235

スコア11

test CHANGED
File without changes
test CHANGED
@@ -1,107 +1 @@
1
- ### 前提・実現したいこと
2
-
3
- scrapyの練習として、[ヤフーファイナンス](https://finance.yahoo.co.jp/)のヘッドラインニュースの見出しとURLを取得したいです。
4
-
5
- リンクを取り出すのにはxpathを使ってます。(chromeの検証検証からすぐわかるので使いやすいかなと)
6
-
7
-
8
-
9
- ### 発生している問題・エラーメッセージ
10
-
11
- `scrapy shell https://finance.yahoo.co.jp/`から
12
-
13
- `response.xpath('//*[@id="ytopContentIn"]/ul/li/a/span[@class="dtl"]//text()').extract()`で見出しは取得できるとわかるのですが、うまくspiderをかけません。
14
-
15
- どう書いらいいのか教えていただきたいです。
1
+ 問題が起きため一度内容を削除し、改め質問させていただきす。
16
-
17
-
18
-
19
- ### 該当のソースコード
20
-
21
- spider
22
-
23
- ```ここに言語名を入力
24
-
25
- # -*- coding: utf-8 -*-
26
-
27
- import scrapy
28
-
29
- from finance.items import FinanceItem
30
-
31
-
32
-
33
- class ArticlesSpider(scrapy.Spider):
34
-
35
- name = 'articles'
36
-
37
- allowed_domains = ['finance.yahoo.co.jp/']
38
-
39
- start_urls = ['https://finance.yahoo.co.jp//']
40
-
41
-
42
-
43
- def parse(self, response):
44
-
45
- for article in response.xpath('//*[@id="ytopContentIn"]/ul'):
46
-
47
- item = FinanceItem()
48
-
49
- item['title'] = response.xpath('li/a/span[@class="dtl"]//text()').extract_first()
50
-
51
- item['url'] = response.xpath('li/a/@href').extract_first()
52
-
53
- #特にこの辺の書き方がわかりません。
54
-
55
- yield item
56
-
57
-
58
-
59
- ```
60
-
61
- items.py
62
-
63
- ```
64
-
65
- # -*- coding: utf-8 -*-
66
-
67
-
68
-
69
- # Define here the models for your scraped items
70
-
71
- #
72
-
73
- # See documentation in:
74
-
75
- # https://doc.scrapy.org/en/latest/topics/items.html
76
-
77
-
78
-
79
- import scrapy
80
-
81
-
82
-
83
- class FinanceItem(scrapy.Item):
84
-
85
- # define the fields for your item here like:
86
-
87
- name = scrapy.Field()
88
-
89
- price = scrapy.Field()
90
-
91
- month = scrapy.Field()
92
-
93
- title = scrapy.Field()
94
-
95
- url = scrapy.Field()
96
-
97
-
98
-
99
- ```
100
-
101
-
102
-
103
- ### 補足情報(FW/ツールのバージョンなど)
104
-
105
-
106
-
107
- python3.5.2

1

タイトルがわかりづらいので書き換えました。

2018/08/20 13:42

投稿

ari1235
ari1235

スコア11

test CHANGED
@@ -1 +1 @@
1
- pythonのscrapyを使ったスクレイピングの練習をしてます
1
+ pythonのscrapyで、xpathを使った抽出がわからな
test CHANGED
File without changes