BeautifulSoupスクレイピングの＜＞で囲われていない部分の抽出

BeautifulSoupでスクレイピングをしたいのですが、HTMLのコードが下記のようになっており、soup.selectでうまく値段の部分が取り出せません。
金額は3桁から4桁まで変化するので、str()で文字に変換してスライスなどの力業はあまり使いたくありません。

スマートに値段だけ取り出す方法はないでしょうか？

html
1<td Class="Pay">
2  <span>140円<br>250円<br>370円</br></br></span>
3</td>

python
1url   = 'https://~~~~~~~~~~~~'
2html  = requests.get(url)
3soup  = BeautifulSoup(html.content, 'html.parser')
4
5Pay   = soup.select('.Pay > span')[0]
6print(Pay)
7# <span>140円<br>250円<br>370円</br></br></span>
8
9Pay   = soup.select('.Pay > span')[0].string
10print(Pay)
11# None

行動規範の内容に同意します

回答2件

既に解決をしている様ですがstringについて補足として回答させて頂きます。

.stringメソッドは指定した要素を含め子孫要素に至るまで
NavigableStringクラスが一つしか存在しない場合に文字列として値が返ってきます。

今回のケースだと指定しているspan要素の中には<br>が複数ある為Noneが返ってきています。
この様な場合.stringではなく.stringsを使用する事でジェネレータが返ってきてリスト化が可能です。

python
1Pay = list(soup.select('.Pay > span')[0].strings)
2print(Pay)
3
4> ['140円', '250円', '370円']

投稿2020/12/07 02:33

編集2020/12/07 02:39

nto

総合スコア1438

Julius_Novachro

2020/12/07 03:02

今回のような場合こちらの方法がより適切ですね。とても勉強になりました、ありがとうございます。

行動規範の内容に同意します

自己解決

.findAll(text=True)で解決しました！

python
1Pay  = soup.select('.Pay > span')[0].findAll(text=True)
2
3print(Pay)
4# ['140円', '250円', '370円']

投稿2020/12/06 18:52

Julius_Novachro

総合スコア7

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

BeautifulSoupスクレイピングの＜＞で囲われていない部分の抽出

関連した質問