質問するログイン新規登録

質問編集履歴

1

自分で試してみたpythonのコードを追加しました。

2020/06/26 08:36

投稿

TakayukiOta
TakayukiOta

スコア15

title CHANGED
File without changes
body CHANGED
@@ -1,1 +1,24 @@
1
- 新聞社のウェブサイトから特定のキーワード(e.g.生活習慣病)が入った記事を抜き出して保存したいです。BeautifulSoupを試してみましたが、指定のリンクを渡してそこからテストを抜き出せるだけで、キーワードを含んだ記事を探して複数のリンク保存することはできませんでた。なにか他にいやり方、ライブラリ、APIなどをご存知でたら教えだきたいです。
1
+ 新聞社のウェブサイトから特定のキーワード(e.g.生活習慣病)が入った記事を抜き出して保存したいです。newspaper3kというライブラリを試してみましたが、キーワードを指定しても関係ない記事のリンク保存されてます。以下が試してコードです。
2
+
3
+
4
+
5
+ ```python
6
+ pip install newspaper3k
7
+ import newspaper
8
+ from newspaper import Article
9
+ # news pages which include keyword "生活習慣病"
10
+ url = "https://r.nikkei.com/search?keyword=生活習慣病&volume=10"
11
+ website = newspaper.build(url, memorize_articles = False, MAX_SUMMARY = 300)
12
+ for article in website.articles:
13
+ print(article.url)
14
+ print(article.title)
15
+ ```
16
+
17
+ > **output**
18
+ > https://r.nikkei.com/article/DGXLSSXK50451_W0A620C2000000
19
+ > None
20
+ > https://r.nikkei.com/article/DGXMZO60842740W0A620C2X30000
21
+ > None
22
+
23
+ urlに指定したリンク(https://r.nikkei.com/search?keyword=生活習慣病&volume=10)では生活習慣病というキーワードを含む記事が一覧で表示されるのですが、その一つ一つをforループで取得しようとすると、全く違う記事のリンクになってしまいます。urlの指定の仕方が間違っているのでしょうか?
24
+ よろしくお願いします。