###前提・実現したいこと python3でクローリング（スクレイピング）を行おうとしています。以下のようなhtmlに対して、「BBBAAACCC」だけ抜き出したいのですが命令文による取得方法はあるでしょうか。 AAA BBBAAACCC ###試したこと soup = BeautifulSoup(html, 'html_parser') print(soup.find('h2').find('strong').get_text()) → 取得結果「AAA」 print(soup.find('h2').get_text()) → 取得結果「AAABBBAAACCC」

[next_sibling](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#next-sibling-and-previous-sibling)を使うとよさそうです。 ```Python # 次の要素を取得 from bs4 import BeautifulSoup html = " AAA BBBAAACCC " soup = BeautifulSoup(html, 'html.parser') h2 = soup.find('h2') strong = h2.find('strong') text = strong.next_sibling # 次の要素 print( h2) # AAA BBBAAACCC print( strong) # AAA print( text) # BBBAAACCC ```

python3でのfindの方法(タグの中の<strong>等で囲まれていない文字の抽出)

###前提・実現したいこと
python3でクローリング（スクレイピング）を行おうとしています。
以下のようなhtmlに対して、「BBBAAACCC」だけ抜き出したいのですが
命令文による取得方法はあるでしょうか。

<h2> <strong>AAA</strong>BBBAAACCC </h2>

###試したこと
soup = BeautifulSoup(html, 'html_parser')
print(soup.find('h2').find('strong').get_text())
→ 取得結果「AAA」
print(soup.find('h2').get_text())
→ 取得結果「AAABBBAAACCC」

行動規範の内容に同意します

回答1件

ベストアンサー

next_siblingを使うとよさそうです。

Python
1# 次の要素を取得
2from bs4 import BeautifulSoup
3html = "<!DOCTYPE html><html lang='ja'><body><h2><strong>AAA</strong>BBBAAACCC</h2></body></html>"
4soup = BeautifulSoup(html, 'html.parser')
5
6h2 = soup.find('h2')
7strong = h2.find('strong')
8text = strong.next_sibling # 次の要素
9
10print( h2)     # <h2><strong>AAA</strong>BBBAAACCC</h2>
11print( strong) # <strong>AAA</strong>
12print( text)   # BBBAAACCC