BeautifulSoupでページの特定のクラスにあるリンクを取得したい

前提・実現したいこと

Python2.7でBeautifulSoup4を使用し、ウェブのスクレイピングのプログラムを作成しています。
HTMLのclassが"hoge"であるdivタグ(複数あります)の中にあるリンクを全て取得したいです。

発生している問題

このサイトを参考にして、aタグの中のhrefを取得すればいいということは分かりました。しかし、それを範囲を指定してする方法が分かりません。find_allでdiv.hogeを取得して一旦代入して、そこからaタグの中のhrefを取得してみようとして、以下のスクリプトを組んだのですが、

python
1div = soup.select("div.tclcon")
2print([a.get("href") for a in div.find_all("a")])

Traceback (most recent call last):
  File "/home/username/Documents/hoge.py", line 8, in <module>
    for i in [a.get("href") for a in div.find_all("a")]:
AttributeError: 'list' object has no attribute 'find_all'

エラーが出て、型を変えたりして試してみたのですが、変わりませんでした。
どのようにすればいいのか、どなたか教えていただけますか？

補足情報（FW/ツールのバージョンなど）

Ubuntu18.04 LTS
Python2.7.15.rc1
beautifulsoup-3.2.1
requests2.19.1

行動規範の内容に同意します

回答1件

ベストアンサー

python
1div = soup.select("div.tclcon")
2print(div)

で確認するとわかりますがdivがlistになっているためエラーがおこっています。

python
1div = soup.select_one("div.tclcon")
2print([a.get("href") for a in div.find_all("a")])

のようにselect_oneでdivをひとつに絞るか

python
1print([[a.get("href") for a in div.find_all("a")] for div in soup.select("div.tclcon")])

のようにforでdivリストをひとつずつ取り出してやるといいと思います。

投稿2018/07/01 02:50

barobaro

総合スコア1286

goma1661

2018/07/01 02:58

回答ありがとうございます。回答が早く、助かりました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！