質問編集履歴
4
追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -72,7 +72,7 @@
|
|
72
72
|
|
73
73
|
text= だと aタグのインラインに該当のテキストがあるものしかダメなので、
|
74
74
|
|
75
|
-
下記のように
|
75
|
+
下記のようにlambda式を使う方法で修正したら無事に動きました。
|
76
76
|
|
77
77
|
|
78
78
|
|
3
参考URLの追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -107,3 +107,9 @@
|
|
107
107
|
links
|
108
108
|
|
109
109
|
```
|
110
|
+
|
111
|
+
|
112
|
+
|
113
|
+
参考URL
|
114
|
+
|
115
|
+
https://qiita.com/amuyikam/items/b7acf88abb7512d58ed8
|
2
追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -61,3 +61,49 @@
|
|
61
61
|
|
62
62
|
|
63
63
|
どのように修正すれば新型コロナのテキストを含むurlを全て取得できるでしょうか?
|
64
|
+
|
65
|
+
|
66
|
+
|
67
|
+
|
68
|
+
|
69
|
+
**追記**
|
70
|
+
|
71
|
+
|
72
|
+
|
73
|
+
text= だと aタグのインラインに該当のテキストがあるものしかダメなので、
|
74
|
+
|
75
|
+
下記のように関数を使う方法で修正したら無事に動きました。
|
76
|
+
|
77
|
+
|
78
|
+
|
79
|
+
```python
|
80
|
+
|
81
|
+
from urllib import request
|
82
|
+
|
83
|
+
from bs4 import BeautifulSoup
|
84
|
+
|
85
|
+
import re
|
86
|
+
|
87
|
+
|
88
|
+
|
89
|
+
url = "https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/topics_shingata_09444.html"
|
90
|
+
|
91
|
+
|
92
|
+
|
93
|
+
#get html
|
94
|
+
|
95
|
+
html = request.urlopen(url)
|
96
|
+
|
97
|
+
|
98
|
+
|
99
|
+
#set BueatifulSoup
|
100
|
+
|
101
|
+
soup = BeautifulSoup(html, "html.parser")
|
102
|
+
|
103
|
+
|
104
|
+
|
105
|
+
links = [url.get('href') for url in soup.find_all(name=lambda x: x.name=="a" and "新型コロナ" in x.text)]
|
106
|
+
|
107
|
+
links
|
108
|
+
|
109
|
+
```
|
1
タイトルを分かりやすくしました。
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
ページ内の特定のテキストを含むurlをリストで取得したい
|
1
|
+
Pythonのスクレイピングでページ内の特定のテキストを含むurlをリストで取得したい
|
test
CHANGED
File without changes
|