特定のキーワードが入ったニュース記事をスクレイピングして保存したい

新聞社のウェブサイトから特定のキーワード（e.g.生活習慣病）が入った記事を抜き出して保存したいです。newspaper3kというライブラリを試してみましたが、キーワードを指定しても関係のない記事のリンクが保存されてしまいます。以下が試してみたコードです。

python
1pip install newspaper3k
2import newspaper
3from newspaper import Article
4# news pages which include keyword "生活習慣病"
5url = "https://r.nikkei.com/search?keyword=生活習慣病&volume=10"
6website = newspaper.build(url, memorize_articles = False, MAX_SUMMARY = 300)
7for article in website.articles:
8    print(article.url)
9    print(article.title)

output
https://r.nikkei.com/article/DGXLSSXK50451_W0A620C2000000
None
https://r.nikkei.com/article/DGXMZO60842740W0A620C2X30000
None

urlに指定したリンク(https://r.nikkei.com/search?keyword=生活習慣病&volume=10)では生活習慣病というキーワードを含む記事が一覧で表示されるのですが、その一つ一つをforループで取得しようとすると、全く違う記事のリンクになってしまいます。urlの指定の仕方が間違っているのでしょうか？
よろしくお願いします。

Penpen7

2020/06/25 19:15

ソースコードを載せて、そのコードでどういう問題があるのか書いてください。

TakayukiOta

2020/06/26 08:37

ソースコードを追記しました。よろしくお願いします。

Penpen7

2020/06/26 09:00

Penpen7

2020/06/26 09:13

何度かやると拾えたり拾えなかったり不安定ですねどの新聞社に対応しているか見つかりませんでした。検索結果だけはBeautifulSoupでやったほうが早くて確実かもしれません。

行動規範の内容に同意します

回答1件

ベストアンサー

BeautifulSoupで検索結果を取るプログラムを書きました。
実行は自己責任でお願いします。

python
1import requests as re
2from bs4 import BeautifulSoup
3import time
4
5# 連続アクセス防止
6time.sleep(5)
7print('start')
8
9# ダウンロード
10url=re.get('https://r.nikkei.com/search?keyword=%E7%94%9F%E6%B4%BB%E7%BF%92%E6%85%A3%E7%97%85&volume=300')
11
12# BeautifulSoupに渡す
13soup = BeautifulSoup(url.content, "html.parser")
14
15# divのsearch__result-itemクラスだけを抽出
16elem = soup.findAll('div', class_='search__result-item')
17
18# 何件ヒットしたか取得し, 整数型に変える
19count = int(soup.find('p', class_='search__result-count').text.replace(',',''))
20print(count, "件ヒット")
21
22for i in elem:
23    # 記事へのリンクを取ってくる
24    link = i.find('a')
25
26    # a要素のtextを取得
27    print(link.text.strip())
28
29    # 記事のURLを取得
30    print(link['href'])
31
32    # 記事の日付を取得
33    print(i.find('time').text)
34    # 色々調整
35    discription = i.find('a', class_='nui-card__excerpt').text.strip()
36    lines= [line.strip().strip('...') for line in discription.splitlines()]
37    discription = ''.join(lines)
38    print(discription)
39
40    print('')