スクレイピングの時、入れ子の要素をうまく取得する方法

Question

スクレイピング初心者です。教えてください。基礎的な本を読んで次のようなhtmlタグの中身を取得する方法は理解しました。 ```ここに言語を入力 15m, 100kg ``` これは次のようにして２つの要素が取り出せました。 ```ここに言語を入力 result=find_all("a") result[0].string result[1].string 実行結果-- 15m 100kg ``` しかしいざ実践しようとしたところ、入れ子（？）となっている要素がうまく取り出せません。 ```ここに言語を入力 15m², 100kg ``` 同じように書くと、、 ```ここに言語を入力 result=find_all("a") result[0].string result[1].string 実行結果-- None 100kg ``` となってしまいます。の中に^{があるからだと思うのですが。。
スマートな取り出し方を教えてください。}

Accepted Answer

コード書いてみました。 Python+BeautifulSoup4の例です。 0. .textを用いる場合 .stringではなく.textを用いれば、期待する出力は得られるようです。 0. unwrap()を用いてsup要素を削除 unwrap()を用いれば、要素の削除ができるようです。 ```Python from bs4 import BeautifulSoup # テスト用のHTML html = """ 15m², 100kg """ # # .textで取得する方法 # # soup = BeautifulSoup(html) と書いたらWarningが出るため下記コードにする soup = BeautifulSoup(html, 'lxml') a_elements = soup.find_all('a') print(a_elements[0].text) # Output: 15m2 print(a_elements[1].text) # Output: 100kg # # unwrapを用いた場合 # # soup_unwrap = BeautifulSoup(html) と書いたらWarningが出るため下記コードにする soup_unwrap = BeautifulSoup(html, 'lxml') # unwrap処理 for element in soup_unwrap.find_all('sup'): element.unwrap() a_elements_unwrap = soup_unwrap.find_all('a') print(a_elements_unwrap[0].text) # Output: 15m2 print(a_elements_unwrap[1].text) # Output: 100kg # # 参考 # print(a_elements) # Output: 15m², 100kg] print(a_elements[0]) # Output: 15m² print(a_elements[1]) # Output: 100kg print(a_elements_unwrap) # Output: [15m2, 100kg] print(a_elements_unwrap[0]) # Output: 15m2 print(a_elements_unwrap[1]) # Output: 100kg ```

Answer

BeautifulSoupの質問でしょうか？質問文には問題が発生する最低限のソースコードと「期待する結果」を記載してくださいな。 |取得したい結果|コード| |:--|:--:| |15m2|result[0].text| |15m|result[0].contents[0].string| 以下はサンプルソースコードです。 ```Python # -*- coding: utf8 -*- from bs4 import BeautifulSoup def main() -> None: html = """ 15m², 100kg """ soup = BeautifulSoup(html, 'lxml') result= soup.find_all("a") for el in result: print("#" * 20) print(el.contents[0].string) print(el.text) print(el.string) if __name__ == '__main__': main() ``` ■参考情報 [Pythonでスクレイピング　基本](http://imabari.hateblo.jp/entry/2016/08/20/101006)

取得したい結果	コード
15m2	result[0].text
15m	result[0].contents[0].string

関連した質問