質問編集履歴

1

自分で試してみたpythonのコードを追加しました。

2020/06/26 08:36

投稿

TakayukiOta
TakayukiOta

スコア15

test CHANGED
File without changes
test CHANGED
@@ -1 +1,47 @@
1
- 新聞社のウェブサイトから特定のキーワード(e.g.生活習慣病)が入った記事を抜き出して保存したいです。BeautifulSoupを試してみましたが、指定のリンクを渡してそこからテストを抜き出せるだけで、キーワードを含んだ記事を探して複数のリンク保存することはできませんでしたなにか他にいいやり方、ライブラリ、APIなどをご存知でたら教えだきたいです。
1
+ 新聞社のウェブサイトから特定のキーワード(e.g.生活習慣病)が入った記事を抜き出して保存したいです。newspaper3kというライブラリを試してみましたが、キーワードを指定しても関係ない記事のリンク保存されてしまいます。以下が試してコードです。
2
+
3
+
4
+
5
+
6
+
7
+
8
+
9
+ ```python
10
+
11
+ pip install newspaper3k
12
+
13
+ import newspaper
14
+
15
+ from newspaper import Article
16
+
17
+ # news pages which include keyword "生活習慣病"
18
+
19
+ url = "https://r.nikkei.com/search?keyword=生活習慣病&volume=10"
20
+
21
+ website = newspaper.build(url, memorize_articles = False, MAX_SUMMARY = 300)
22
+
23
+ for article in website.articles:
24
+
25
+ print(article.url)
26
+
27
+ print(article.title)
28
+
29
+ ```
30
+
31
+
32
+
33
+ > **output**
34
+
35
+ > https://r.nikkei.com/article/DGXLSSXK50451_W0A620C2000000
36
+
37
+ > None
38
+
39
+ > https://r.nikkei.com/article/DGXMZO60842740W0A620C2X30000
40
+
41
+ > None
42
+
43
+
44
+
45
+ urlに指定したリンク(https://r.nikkei.com/search?keyword=生活習慣病&volume=10)では生活習慣病というキーワードを含む記事が一覧で表示されるのですが、その一つ一つをforループで取得しようとすると、全く違う記事のリンクになってしまいます。urlの指定の仕方が間違っているのでしょうか?
46
+
47
+ よろしくお願いします。