質問編集履歴

自分で試してみたpythonのコードを追加しました。

2020/06/26 08:36

投稿

TakayukiOta

スコア15

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,1 +1,24 @@
-新聞社のウェブサイトから特定のキーワード（e.g.生活習慣病）が入った記事を抜き出して保存したいです。BeautifulSoupを試してみましたが、指定のリンクを渡してそこからテキストを抜き出せるだけで、キーワードを含んだ記事を探して複数のリンクを保存することはできませんでした。なにか他にいいやり方、ライブラリ、APIなどをご存知でしたら教えていただきたいです。
+新聞社のウェブサイトから特定のキーワード（e.g.生活習慣病）が入った記事を抜き出して保存したいです。newspaper3kというライブラリを試してみましたが、キーワードを指定しても関係のない記事のリンクが保存されてしまいます。以下が試してみたコードです。
+```python
+pip install newspaper3k
+import newspaper
+from newspaper import Article
+# news pages which include keyword "生活習慣病"
+url = "https://r.nikkei.com/search?keyword=生活習慣病&volume=10"
+website = newspaper.build(url, memorize_articles = False, MAX_SUMMARY = 300)
+for article in website.articles:
+    print(article.url)
+    print(article.title)
+```
+> **output**
+> https://r.nikkei.com/article/DGXLSSXK50451_W0A620C2000000
+> None
+> https://r.nikkei.com/article/DGXMZO60842740W0A620C2X30000
+> None
+urlに指定したリンク(https://r.nikkei.com/search?keyword=生活習慣病&volume=10)では生活習慣病というキーワードを含む記事が一覧で表示されるのですが、その一つ一つをforループで取得しようとすると、全く違う記事のリンクになってしまいます。urlの指定の仕方が間違っているのでしょうか？
+よろしくお願いします。