ScrapyによるWebスクレイピングがうまくいかない

前提・実現したいこと

python クローリング＆スクレイピングという本でScrapyの使い方を勉強しています。掲載したコードはYahoo!ニュースのトップページに表示されているトピックス一覧から個別のトピックスへのリンクをたどり、トピックスのタイトルと本文を抽出するためのものです。

このコードをscrapy crawl news -o news.csvで実行しCSVファイルを作成すると、トピックスのタイトルと本文の一覧を表形式で見ることができました。

私はこの方法を参考にして他のWEBサイトから個別ページのタイトル、本文、URLを全て抜き出しCSVファイルに保存したいと考えています。その目的を実現させるためにいくつかの方法を試したのですがうまくいきません。何がいけいないのか教えてもらえると助かります。

また、同じことをScrapy以外でするとしたらどのような方法があるでしょうか。

発生している問題・エラーメッセージ

書籍のサンプルコードを修正してCSVに保存したが、ファイルを開くとデータが入っていなかった。

該当のソースコード

python
1
2# -*- coding: utf-8 -*-
3
4# Define here the models for your scraped items
5#
6# See documentation in:
7# http://doc.scrapy.org/en/latest/topics/items.html
8
9import scrapy
10
11
12class MyprojectItem(scrapy.Item):
13    # define the fields for your item here like:
14    # name = scrapy.Field()
15    pass
16
17
18class Headline(scrapy.Item):
19    """
20    ニュースのヘッドラインを表すItem。
21    """
22
23    title = scrapy.Field()
24    body = scrapy.Field()
25

import scrapy

from myproject.items import Headline  # ItemのHeadlineクラスをインポート。


class NewsSpider(scrapy.Spider):
    name = "news"  # Spiderの名前。
    # クロール対象とするドメインのリスト。
    allowed_domains = ["news.yahoo.co.jp"]
    # クロールを開始するURLのリスト。
    start_urls = (
        'http://news.yahoo.co.jp/',
    )

    def parse(self, response):
        """
        トップページのトピックス一覧から個々のトピックスへのリンクを抜き出してたどる。
        """
        for url in response.css('ul.topics a::attr("href")').re(r'/pickup/\d+$'):
            yield scrapy.Request(response.urljoin(url), self.parse_topics)

    def parse_topics(self, response):
        """
        トピックスのページからタイトルと本文を抜き出す。
        """
        item = Headline()  # Headlineオブジェクトを作成。
        item['title'] = response.css('.newsTitle ::text').extract_first()  # タイトル
        item['body'] = response.css('.hbody').xpath('string()').extract_first()  # 本文
        yield item  # Itemをyieldして、データを抽出する。

試したこと

class Headline(scrapy.Item):内にurl= scrapy.Field()を追加。
class NewsSpider(scrapy.Spider):内のallowed_domains = ["news.yahoo.co.jp"]とstart_urls = ('http://news.yahoo.co.jp/',)に記述したURLを取得したいサイトのURLに変更。
def parse_topics(self, response):内のitem['title'] =rsponse.css('.newsTitle ::text').extract_first()の.newsTitleをChromeの開発ツールで調べたclass名entry-titleに変更。
item['body'] = response.css('.hbody').xpath('string()').extract_first()の.hbodyをChromeの開発ツールで調べたclass名entry-contentに変更。
item['body']の下にitem['URL'] = response.urlを追加。
保存したコードをscrapy crawl news -o news.csvで実行

補足情報（FW/ツールのバージョンなど）

特になし

行動規範の内容に同意します

回答3件

WebサイトをスクレイピングするWebクローラー20選
ご参考まで。

投稿2018/12/24 03:51

編集2019/03/12 01:52

Yuki-Sakuraba

総合スコア163

同じ質問でしたのでこちらにも
https://teratail.com/questions/160826

cssセレクタが変更されているようです

変更前
ul.topics

変更後
ul.toptopics_list

python
1    def parse(self, response):
2        for url in response.css('ul.toptopics_list a::attr("href")').re(r'/pickup/\d+$'):
3            yield scrapy.Request(response.urljoin(url), self.parse_topics)

投稿2018/11/28 08:33

barobaro

総合スコア1286

Scrapy はわからないですが、スクレイピングだと BeautifulSoup が有名ですね。以下のようにかけます。

python
1import csv
2import urllib
3
4from bs4 import BeautifulSoup
5
6url = 'https://news.yahoo.co.jp/'  # 取得先URL
7html = urllib.request.urlopen(url).read()
8soup = BeautifulSoup(html, 'html.parser')
9
10topics = []
11for a_elem in soup.select('ul.topics a'):
12    topic_url = urllib.parse.urljoin('https://news.yahoo.co.jp/', a_elem.get('href'))
13
14    # 「もっと見る」、「全カテゴリのトピックス一覧」を無視
15    if 'pickup' in topic_url:
16        # <span class="icPhoto">写真</span>, <span class="icNew">new</span> を削除
17        [elem.extract() for elem in a_elem.findAll('span')]
18        topic_title = a_elem.text
19        topics.append([topic_title, topic_url])
20
21# CSV に出力する。
22with open('topics.csv', 'w', encoding='utf-8') as f:
23    writer = csv.writer(f)
24    writer.writerow(['タイトル', 'URL'])  # ヘッダーを書き込む。
25    writer.writerows(topics)  # データを書き込む。

CSV
1タイトル,URL
2日経平均 一時900円超安,https://news.yahoo.co.jp/pickup/6299690
3米軍ヘリ炎上1年 進まぬ捜査,https://news.yahoo.co.jp/pickup/6299666
4米ハリケーン 大災害の恐れ,https://news.yahoo.co.jp/pickup/6299677
5韓国外相 制裁巡る発言を謝罪,https://news.yahoo.co.jp/pickup/6299674
6コンビニバイト訴える理不尽,https://news.yahoo.co.jp/pickup/6299686
7金本監督 今季限りで辞任,https://news.yahoo.co.jp/pickup/6299695
8吉田輝星の迷い 消した学校長,https://news.yahoo.co.jp/pickup/6299685
9ケンタロウ奇跡の回復 笑顔も,https://news.yahoo.co.jp/pickup/6299678