BeautifulSoup4において指定クラスのタグの中にあるaタグだけを取り出す

前提・実現したいこと

発生している問題・エラーメッセージ

以下のソースコードのclass=mainBoxの中のaタグのhref属性だけを取り出したいです。

該当のソースコード

html = "

<div class="hogehoge"> <a href="http://hoge">hoge</a> </div> <div class="mainBox"> <a href="http://1">text1</a> <a href="http://2">text2</a> <a href="http://3">text3</a> </div> "

試したこと

soup = BeautifulSoup(html, "html.parser")
mainBox = soup.find('div', class_='mainBox')

などと考えましたがmainBoxのタイプはbs4.element.Tagになり
ここからどうすれば良いんだ？？とつまっています・・・

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答2件

ベストアンサー

python
1# 略
2
3soup = BeautifulSoup(html, "html.parser")
4hrefs = [elem['href'] for elem in soup.find('div', class_='mainBox').find_all('a')]
5print(hrefs)  # => ['http://1', 'http://2', 'http://3']
6

投稿2018/10/23 11:30

hayataka2049

総合スコア30933

egg_gogo285

2018/10/23 12:51

うまくいきました、ありがとうございます！

行動規範の内容に同意します

bs4.element.Tagオブジェクトから、その子要素を辿っていけるみたいです。
さらに属性は、辞書みたいな感じでアクセスできるようです。

python
1a_tags = mainBox.find_all('a')   # mainBox下のaタグを配列で取得
2hrefs = [x['href'] for x in a_tags]  # かくaタグのhrefを取得

参考 : https://qiita.com/chokosuki4400/items/2318437b3ae88d024b0f

投稿2018/10/23 11:36

moch

総合スコア122

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！