### 実現したいことスクレイピングしたデータを**最終的に以下のようなリストとして出力**したい **['こんにちは', 'こんばんは']** - [ ] タグで分割してリストにする - [ ] タグを削除する ### 前提 PythonとBeautifulSoupを使用しています。変数htmlは変更しないものとします。 ### 発生している問題 0. タグを削除するとタグも同時に削除される 1. タグが削除されることによってsplitを利用した分割が不可になる ### 該当のソースコード ```Python3 html = ' こんにちはこんばんは ' soup = BeautifulSoup(html, 'html.parser') items = soup.select('strong') print(items[0]) print(items[0].text) print(type(items[0])) result = items[0].split(' ') print(result) ``` ### 試したこと ```Python3 # 文字列型にしてなんとかできないかと試みました str(items[0]) ``` ここに問題に対して試したことを記載してください。 ### 補足情報（FW/ツールのバージョンなど） Python 3.10.6 beautifulsoup 4.12.2 Windows11

コメントをいただき解決できました。ほぼコメントのままですが、コードは以下になりました。 ```Python3 from bs4 import BeautifulSoup, element html = ' こんにちはこんばんは ' soup = BeautifulSoup(html, 'html.parser') items = soup.select('strong') print(items[0]) print(items[0].text) print(items[0].contents) print(type(items[0])) result = [elm for elm in items[0].contents if not isinstance(elm, element.Tag)] print(result) ```

BeautifulSoupのデータをhtmlタグで分割してリストにするには？

実現したいこと

スクレイピングしたデータを最終的に以下のようなリストとして出力したい
['こんにちは', 'こんばんは']

タグで分割してリストにする
タグを削除する

前提

PythonとBeautifulSoupを使用しています。
変数htmlは変更しないものとします。

発生している問題

タグを削除すると タグも同時に削除される
タグが削除されることによってsplitを利用した分割が不可になる

該当のソースコード

Python3
1html = '<strong>こんにちは<br/>こんばんは</strong>'
2soup = BeautifulSoup(html, 'html.parser')
3items = soup.select('strong')
4
5print(items[0])
6print(items[0].text)
7print(type(items[0]))
8
9result = items[0].split('<br/>')
10print(result)

試したこと

Python3
1# 文字列型にしてなんとかできないかと試みました
2str(items[0])

ここに問題に対して試したことを記載してください。

補足情報（FW/ツールのバージョンなど）

Python 3.10.6
beautifulsoup 4.12.2
Windows11

melian

2023/05/23 08:56

items[0].contents を利用してみてはどうでしょうか。 import bs4 result = [elm for elm in items[0].contents if not isinstance(elm, bs4.element.Tag)] print(result)

castlemist

2023/05/23 09:29

すごい！浅学につき.contentsとisinstanceが理解できてないのは困ったものですが、動作を確認できました。

行動規範の内容に同意します

回答1件

自己解決

コメントをいただき解決できました。
ほぼコメントのままですが、コードは以下になりました。

Python3
1from bs4 import BeautifulSoup, element
2
3html = '<strong>こんにちは<br/>こんばんは</strong>'
4soup = BeautifulSoup(html, 'html.parser')
5items = soup.select('strong')
6
7print(items[0])
8print(items[0].text)
9print(items[0].contents)
10print(type(items[0]))
11
12result = [elm for elm in items[0].contents if not isinstance(elm, element.Tag)]
13print(result)