teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

3

図を追加

2017/10/23 10:02

投稿

haduki08
haduki08

スコア13

title CHANGED
File without changes
body CHANGED
@@ -10,11 +10,11 @@
10
10
  xPath、CSSセレクタの指定の仕方が知識と理解が足りなく苦戦しています。
11
11
 
12
12
  まず、下記図の赤枠部分のテキストとURLを取得したいです。
13
- [イメージ説明](5905d9491734b713cf56ada7e855c815.jpeg)
13
+ ![イメージ説明](c9aa8a19174331c9a13544c75caa2b58.jpeg)
14
14
 
15
15
  ###該当のソースコード(\shareshare\spiders\get_shareshare.py)
16
16
  ```ここに言語を入力
17
- # -*- coding: utf-8 -*-!
17
+ # -*- coding: utf-8 -*-
18
18
  import scrapy
19
19
 
20
20
  class shareshareSpider(scrapy.Spider):

2

具体的な説明追記

2017/10/23 10:02

投稿

haduki08
haduki08

スコア13

title CHANGED
File without changes
body CHANGED
@@ -9,9 +9,12 @@
9
9
  [シェアハウス検索サイト「シェアシェア」](http://share-share.jp/search/result/?limit=25&page=1&sort%5B1%5D=upd)
10
10
  xPath、CSSセレクタの指定の仕方が知識と理解が足りなく苦戦しています。
11
11
 
12
+ まず、下記図の赤枠部分のテキストとURLを取得したいです。
13
+ [イメージ説明](5905d9491734b713cf56ada7e855c815.jpeg)
14
+
12
15
  ###該当のソースコード(\shareshare\spiders\get_shareshare.py)
13
16
  ```ここに言語を入力
14
- # -*- coding: utf-8 -*-
17
+ # -*- coding: utf-8 -*-!
15
18
  import scrapy
16
19
 
17
20
  class shareshareSpider(scrapy.Spider):

1

コード編集

2017/10/23 10:01

投稿

haduki08
haduki08

スコア13

title CHANGED
File without changes
body CHANGED
@@ -14,9 +14,6 @@
14
14
  # -*- coding: utf-8 -*-
15
15
  import scrapy
16
16
 
17
- #from shareshare.items import shareshareItem
18
- #from scrapy.selector import Selector # 追加
19
-
20
17
  class shareshareSpider(scrapy.Spider):
21
18
  name = "share_share"
22
19
  allowed_domains = ["share-share.jp"]
@@ -24,18 +21,12 @@
24
21
  start_urls = (
25
22
  'http://share-share.jp/search/result/?limit=25&page=1&sort%5B1%5D=upd'
26
23
  )
27
- # インデント
24
+
28
25
  def parse(self, response):
29
26
  for sel in response.css("div.result-list"):
30
27
  article = shareshareItem()
31
28
  article['title'] = sel.css("table > tbody > tr:nth-child(1) > td > div > h3 > a::text").extract_first()
32
29
  article['url'] = sel.css("div.result-list > table > tbody > tr:nth-child(1) > td > div > h3 > a::attr('href')").extract_first()
33
-      
34
-      #「グノシー」からのコピペ。次ページの遷移方法がわからずコメント化
35
- #next_page = response.css("div.page-link-option > a::attr('href')")
36
- #if next_page:
37
- # url = response.urljoin(next_page[0].extract())
38
- # yield scrapy.Request(url, callback=self.parse)
39
30
  ```
40
31
 
41
32