質問編集履歴
1
ソースコード、エラーを追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -22,30 +22,86 @@
|
|
22
22
|
|
23
23
|
|
24
24
|
|
25
|
+
### 試したこと
|
26
|
+
|
27
|
+
参考書では店舗名のテキスト取得のコードが使用されていました。
|
28
|
+
|
29
|
+
これは店舗名しかうまくいかなかったのでネットで検索したところ、google chromeで生成できるxpathで抽出しようと思い試みましたがエラーも出ず、何も抽出されませんでした。
|
30
|
+
|
31
|
+
```python
|
32
|
+
|
33
|
+
|
34
|
+
|
35
|
+
import scrapy
|
36
|
+
|
37
|
+
#https://ramendb.supleks.jp/s/4227.html
|
38
|
+
|
39
|
+
scrapy shell https://ramendb.supleks.jp/s/4227.html
|
40
|
+
|
41
|
+
#店舗名のテキストを取得
|
42
|
+
|
43
|
+
response.css('.shopname').xpath('string()').get()
|
44
|
+
|
45
|
+
#開店日のテキストを取得①
|
46
|
+
|
47
|
+
response.xpath('//*[@id="data-table"]/tbody/tr[12]/text()').extract()
|
48
|
+
|
49
|
+
#開店日のテキストを取得②
|
50
|
+
|
51
|
+
response.xpath('/html/body/div[5]/div/div[1]/div/div[5]/div[1]/div/table/tbody/tr[12]/td/text()').extract()
|
52
|
+
|
53
|
+
```
|
54
|
+
|
55
|
+
|
56
|
+
|
57
|
+
### 発生している問題・エラーメッセージ
|
58
|
+
|
59
|
+
|
60
|
+
|
61
|
+
```
|
62
|
+
|
63
|
+
#scrapy shellの部分は省略
|
64
|
+
|
65
|
+
|
66
|
+
|
67
|
+
>>> response.css('.shopname').xpath('string()').get()
|
68
|
+
|
69
|
+
'ちばから'
|
70
|
+
|
71
|
+
>>> #開店日のテキストを取得①
|
72
|
+
|
73
|
+
>>> response.xpath('//*[@id="data-table"]/tbody/tr[12]/text()').extract()
|
74
|
+
|
75
|
+
[]
|
76
|
+
|
77
|
+
>>> #開店日のテキストを取得②
|
78
|
+
|
79
|
+
>>> response.xpath('/html/body/div[5]/div/div[1]/div/div[5]/div[1]/div/table/tbody/tr[12]/td/text()').extract()
|
80
|
+
|
81
|
+
[]
|
82
|
+
|
83
|
+
|
84
|
+
|
25
85
|
|
26
86
|
|
27
87
|
```
|
28
88
|
|
29
89
|
|
30
90
|
|
31
|
-
###
|
91
|
+
###追加と修正
|
32
92
|
|
33
|
-
|
93
|
+
octoparse様の回答を参考に行ったところ。抽出はできました。
|
34
94
|
|
35
|
-
|
95
|
+
ですが、ここからテキストのみを取得したいです。
|
36
|
-
|
37
|
-
|
38
|
-
|
39
|
-
```python
|
40
|
-
|
41
|
-
response.xpath('//*[@id="data-table"]/tbody/tr[12]/text()').extract()
|
42
|
-
|
43
|
-
|
44
|
-
|
45
|
-
response.xpath('/html/body/div[5]/div/div[1]/div/div[5]/div[1]/div/table/tbody/tr[12]/td/text()').extract()
|
46
|
-
|
47
|
-
|
48
|
-
|
49
|
-
|
50
96
|
|
51
97
|
```
|
98
|
+
|
99
|
+
>>>response.xpath('//th[text()="開店日"]/following-sibling::td[1]').get()
|
100
|
+
|
101
|
+
'<td>2004年10月8日</td>'
|
102
|
+
|
103
|
+
>>> response.xpath('//div[@id="shop-data"]//span[@itemprop="address"]').get()
|
104
|
+
|
105
|
+
'<span itemprop="address">〒290-0072 <a href="/search/shop?state=chiba">千葉県</a><a href="/search/shop?state=chiba&city=%E5%B8%82%E5%8E%9F%E5%B8%82">市原市</a>西国分寺台1-3-16</span>'
|
106
|
+
|
107
|
+
```
|