質問編集履歴

3

画像を添付しました。

2020/05/31 07:08

投稿

Will418
Will418

スコア0

test CHANGED
File without changes
test CHANGED
@@ -1,4 +1,8 @@
1
- ![![イメージ説明](ebfb6432205ec7db11766df0c03f1bf0.jpeg)](238a207b8f4ff7136c0fe46c4229382e.jpeg)
1
+ ![イメージ説明](6538a8634a8ddff1b18c68f5870c58f4.jpeg)
2
+
3
+
4
+
5
+ ![イメージ説明](e88591cd30276bdf00e759dd228c9247.jpeg)
2
6
 
3
7
 
4
8
 

2

実行コード及び結果を画像で添付いたしました。

2020/05/31 07:08

投稿

Will418
Will418

スコア0

test CHANGED
File without changes
test CHANGED
@@ -1,3 +1,7 @@
1
+ ![![イメージ説明](ebfb6432205ec7db11766df0c03f1bf0.jpeg)](238a207b8f4ff7136c0fe46c4229382e.jpeg)
2
+
3
+
4
+
1
5
  *追記依頼に対して、情報を追加し、再度ポスト致します。
2
6
 
3
7
 

1

全コードをシェアいたします。.strip()に変更後のエラーメッセージを追加しました。

2020/05/31 07:07

投稿

Will418
Will418

スコア0

test CHANGED
File without changes
test CHANGED
@@ -1,21 +1,65 @@
1
+ *追記依頼に対して、情報を追加し、再度ポスト致します。
2
+
3
+
4
+
1
5
  Scrapyを使いスクレイピングをしていますが、以下のコードに対するレスポンスが'\r\n       5000'となります。
6
+
7
+
8
+
9
+ コードはこちらになります。
10
+
11
+
12
+
13
+ import scrapy
14
+
15
+
16
+
17
+ class PropertySpider(scrapy.Spider):
18
+
19
+ name = 'property'
20
+
21
+ allowed_domains = ['www.nomu.com']
22
+
23
+
24
+
25
+ def start_requests(self):
26
+
27
+ yield scrapy.Request(url='https://www.nomu.com/mansion/SearchList/?pkg=mansion&wide=13&type=area&wide_name=tokyo&area_group_cd=C&area_id[]=13101&area_id[]=13103&area_id[]=13102&area_id[]=13113&area_id[]=13104&area_id[]=13105&area_id[]=13116&area_id[]=13117&area_id[]=13119&area_id[]=13122&area_id[]=13123&area_id[]=13108&area_id[]=13118&area_id[]=13121&area_id[]=13106&area_id[]=13107&area_id[]=13109&area_id[]=13112&area_id[]=13110&area_id[]=13111&area_id[]=13120&area_id[]=13114&area_id[]=13115&area_id[]=13201&area_id[]=13202&area_id[]=13203&area_id[]=13204&area_id[]=13205&area_id[]=13206&area_id[]=13207&area_id[]=13208&area_id[]=13209&area_id[]=13210&area_id[]=13211&area_id[]=13212&area_id[]=13213&area_id[]=13214&area_id[]=13215&area_id[]=13218&area_id[]=13219&area_id[]=13220&area_id[]=13221&area_id[]=13222&area_id[]=13224&area_id[]=13225&area_id[]=13227&area_id[]=13229&pager_page=1', callback=self.parse, headers={
28
+
29
+ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
30
+
31
+ })
2
32
 
3
33
 
4
34
 
5
35
  def parse(self, response):
6
36
 
7
- for item in response.xpath("//tr"):
37
+ for house in response.xpath("//tr"):
8
38
 
9
- yield {
39
+ yield {
10
40
 
11
- 'size': house.xpath(".//td[4]/p/text()").get()}
41
+ 'size': house.xpath(".//td[4]/p/text()").get(),
42
+
43
+ 'User-Agent': response.request.headers['User-Agent']
44
+
45
+ }
12
46
 
13
47
 
14
48
 
15
- CSVとしてアウトプットしますと、空白になるため、
16
49
 
50
+
17
- コードを変更しget().strip()を使いスペースを除去しようとしましたが問題は解決しませんでした。
51
+ next_page = 'https://www.nomu.com/'+ response.xpath("//li[@class='item_link skin_next']/a/@href").get()
18
52
 
19
53
 
20
54
 
21
- 何かアドバイスをいただけると助かります。
55
+ if next_page:
56
+
57
+ yield scrapy.Request(url=next_page, callback=self.parse, headers={
58
+
59
+ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
60
+
61
+ })
62
+
63
+
64
+
65
+ こちらをRunすると、サイズの項目がターミナルでは'r\n\ 5000'と一応スクレイプできているようですが、CSVとしてアウトプットすると空白として出ました。そのため、スペースを除去しようと 'size': house.xpath(".//td[4]/p/text()").get().strip()としたのですが、エラーとして”AttributeError: 'NoneType' object has no attribute 'strip'”と出ています。