[Python]bs4でHTML内の特定部分を抽出したい

前提・実現したいこと

Python3.7.6を使用しています。

早速ですが、
次のようなHTMLから、URL部分
「http://www.test.co.jp/about.html」
のところを抜き出したいです。

HTML
1<a class="test_class_name" href="http://www.test.co.jp/about.html">
2　　　プロフィール紹介ページ
3</a>

試したこと

次のように書いてみましたが、「プロフィール紹介ページ」という本文のほうが取得されてしまいます。（当たり前か…）

Python
1import requests
2import bs4
3
4data = requests.get("http://www.test.co.jp/article1.html")
5soup = bs4.BeautifulSoup(data.text, "html.parser")
6elems = soup.find_all(class_='test_class_name')
7
8for x in elems:        
9        print(elems)

当方Python初心者で、いくつかのサイトをあたってみたのですが同様のことをしている先人が見つかりませんでしたので、質問させていただきました。

よろしくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

下記でいかがでしょう。

python3
1for x in elems:  
2    print(x.attrs["href"])

投稿2020/06/23 07:17

jeanbiego

総合スコア3966

hir0ki

2020/06/23 07:29

ありがとうございます。早速やってみたのですが、KeyErrorが出て止まってしまいます…。 Traceback (most recent call last): File "D:\～～\test.py", line 52, in <module> print(x.attrs["href"]) KeyError: 'href こちらのサイト（https://www.lifewithpython.com/2017/06/python-attrs.html）によれば、「import attr」（sなし）をする必要があるようなので、pip install attrs（sあり）してimportしてみましたが、状況は変わりませんでした。よろしくお願いします。

hir0ki

2020/06/23 07:33

こちらの単純なミスでした。申し訳ありません。 print(x.attrs["href"]) こちらの方法で、無事取得できました！今後とも、よろしくお願いいたします。

行動規範の内容に同意します