質問編集履歴
1
自分で試してみたpythonのコードを追加しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -1 +1,47 @@
|
|
1
|
-
新聞社のウェブサイトから特定のキーワード(e.g.生活習慣病)が入った記事を抜き出して保存したいです。
|
1
|
+
新聞社のウェブサイトから特定のキーワード(e.g.生活習慣病)が入った記事を抜き出して保存したいです。newspaper3kというライブラリを試してみましたが、キーワードを指定しても関係のない記事のリンクが保存されてしまいます。以下が試してみたコードです。
|
2
|
+
|
3
|
+
|
4
|
+
|
5
|
+
|
6
|
+
|
7
|
+
|
8
|
+
|
9
|
+
```python
|
10
|
+
|
11
|
+
pip install newspaper3k
|
12
|
+
|
13
|
+
import newspaper
|
14
|
+
|
15
|
+
from newspaper import Article
|
16
|
+
|
17
|
+
# news pages which include keyword "生活習慣病"
|
18
|
+
|
19
|
+
url = "https://r.nikkei.com/search?keyword=生活習慣病&volume=10"
|
20
|
+
|
21
|
+
website = newspaper.build(url, memorize_articles = False, MAX_SUMMARY = 300)
|
22
|
+
|
23
|
+
for article in website.articles:
|
24
|
+
|
25
|
+
print(article.url)
|
26
|
+
|
27
|
+
print(article.title)
|
28
|
+
|
29
|
+
```
|
30
|
+
|
31
|
+
|
32
|
+
|
33
|
+
> **output**
|
34
|
+
|
35
|
+
> https://r.nikkei.com/article/DGXLSSXK50451_W0A620C2000000
|
36
|
+
|
37
|
+
> None
|
38
|
+
|
39
|
+
> https://r.nikkei.com/article/DGXMZO60842740W0A620C2X30000
|
40
|
+
|
41
|
+
> None
|
42
|
+
|
43
|
+
|
44
|
+
|
45
|
+
urlに指定したリンク(https://r.nikkei.com/search?keyword=生活習慣病&volume=10)では生活習慣病というキーワードを含む記事が一覧で表示されるのですが、その一つ一つをforループで取得しようとすると、全く違う記事のリンクになってしまいます。urlの指定の仕方が間違っているのでしょうか?
|
46
|
+
|
47
|
+
よろしくお願いします。
|