新聞社のウェブサイトから特定のキーワード(e.g.生活習慣病)が入った記事を抜き出して保存したいです。newspaper3kというライブラリを試してみましたが、キーワードを指定しても関係のない記事のリンクが保存されてしまいます。以下が試してみたコードです。
python
1pip install newspaper3k 2import newspaper 3from newspaper import Article 4# news pages which include keyword "生活習慣病" 5url = "https://r.nikkei.com/search?keyword=生活習慣病&volume=10" 6website = newspaper.build(url, memorize_articles = False, MAX_SUMMARY = 300) 7for article in website.articles: 8 print(article.url) 9 print(article.title)
output
https://r.nikkei.com/article/DGXLSSXK50451_W0A620C2000000
None
https://r.nikkei.com/article/DGXMZO60842740W0A620C2X30000
None
urlに指定したリンク(https://r.nikkei.com/search?keyword=生活習慣病&volume=10)では生活習慣病というキーワードを含む記事が一覧で表示されるのですが、その一つ一つをforループで取得しようとすると、全く違う記事のリンクになってしまいます。urlの指定の仕方が間違っているのでしょうか?
よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー