回答率: 85.29%

質問するログイン新規登録

トップスクレイピングに関する質問タグの中のいらないものを除去

編集履歴

回答編集履歴

2

d

2019/04/05 06:53

投稿

スコア21962

answer CHANGED Viewed

@@ -42,4 +42,31 @@
 soup = BeautifulSoup(html)
 vals = [t.text for t in soup.find_all('p')]
 print(vals)  # ['ZZZ', 'AAA', 'BBB', 'CCC', 'YYY', '', 'TTTSSS', 'RRR', '4', 'XXX']
+```
+## 追記
+```python
+html = '''<p><span>ZZZ</span></p>,
+ <p>AAA</p>,
+ <p>BBB</p>,
+ <p>CCC</p>,
+ <p class="tags">YYY</p>,
+ <p class="list"><a href="/WWW/"><img alt="VVV" src="/UUU"/></a></p>,
+ <p class="tags">TTT<br class="sp"/>SSS</p>,
+ <p class="hoge"><a class="tagb" href="/socialmedia/">RRR</a></p>,
+ <p class="fuga"><a class="typesquare_tags" href="/chronicle/04/">4</a></p>,
+ <p class="capion typesquare_tags">XXX</p>'''
+from bs4 import BeautifulSoup
+soup = BeautifulSoup(html)
+vals = []
+for t in soup.find_all('p'):
+    # p タグの子でテキストがある要素のみ検索
+    p_text = t.find(text=True, recursive=False)
+    if p_text:
+        vals.append(p_text)
+print(vals)  # ['AAA', 'BBB', 'CCC', 'YYY', 'TTT', 'XXX']
 ```

1

d

2019/04/05 06:53

投稿

スコア21962

answer CHANGED Viewed

@@ -19,4 +19,27 @@
 soup = BeautifulSoup(html)
 vals = [t.text for t in soup.find_all('p', attrs=lambda attrs: not attrs)]
 print(vals)  # ['ZZZ', 'AAA', 'BBB', 'CCC']
+```
+## 追記
+単純に p タグの値だけ取り出すという意味でしたら、以下です。
+```python
+html = '''<p><span>ZZZ</span></p>,
+ <p>AAA</p>,
+ <p>BBB</p>,
+ <p>CCC</p>,
+ <p class="tags">YYY</p>,
+ <p class="list"><a href="/WWW/"><img alt="VVV" src="/UUU"/></a></p>,
+ <p class="tags">TTT<br class="sp"/>SSS</p>,
+ <p class="hoge"><a class="tagb" href="/socialmedia/">RRR</a></p>,
+ <p class="fuga"><a class="typesquare_tags" href="/chronicle/04/">4</a></p>,
+ <p class="capion typesquare_tags">XXX</p>'''
+from bs4 import BeautifulSoup
+soup = BeautifulSoup(html)
+vals = [t.text for t in soup.find_all('p')]
+print(vals)  # ['ZZZ', 'AAA', 'BBB', 'CCC', 'YYY', '', 'TTTSSS', 'RRR', '4', 'XXX']
 ```