BeautifulSoup URL取得について

前提・実現したいこと

Python BeautifulSoupでURL
を取得したい

発生している問題・エラーメッセージ

<a href="#△△">〇〇</a>
まではスクレイピングでき、.textで
〇〇のスクレイピングもできたが
URLのスクレイピングができません

エラーメッセージ
-1

該当のソースコード

urls = soup.find_all('a')[1]
for url in urls:
____link = url.find('href')
print(link)
↑インスタンス入れてます。
言語名
Python
ソースコード
▶︎<li class="">
▼<li class="">
__<a href="#△△">〇〇</a>
__</li>
▶︎<li class="">
。。。

試したこと

soup.find_all('a')[1]
↓
soup.find_all('li')[1]

エラー内容
-1
↓
-1
None
-1

補足情報（FW/ツールのバージョンなど）

liクラスはいくつかあった為リストの２番目だけ抽出したい為
find_all()[1]としています。

<a href="#△△">〇〇</a>
まではたどり着けているので
soupから直接aタグを抽出している事にしております。

ここにより詳細な情報を記載してください。
python3
使用環境は
jupyter labです。

行動規範の内容に同意します

回答1件

ベストアンサー

「URLを取得したい」というのは「aタグのhref属性の値を取得したい」という理解でよいでしょうか。

もしそうであればhrefはタグではなく属性なので、find()ではなくget()を使いましょう。

Beautiful Soup 4.9.0 documentation - Crummy

python
1urls = soup.find_all('a')[1]
2for url in urls:
3    link = url.get('href')
4    print(link)

また、CSSセレクタをご存知であればselect()を使った方が今回ご質問の状況には合うかと思います。

python
1urls = soup.select('li:nth-of-type(2) a')
2for url in urls:
3    link = url.get('href')
4    print(link)

それから、細かいことで申し訳ないのですが、質問内のソースコードのインデントが潰れてしまっていたりして少し見にくく感じました。
以下の記事を参考に各コードをコードブロックで囲っていただけると見やすくなり、回答も得やすくなるかと思います。

質問する際にMarkdownは必ず使って欲しい - Qiita

以上、お役に立てれば幸いです。

投稿2021/10/16 20:05

編集2021/10/16 20:06

fj68

総合スコア752

Zarathustra

2021/10/18 11:35

質問の意図を汲み取って頂きありがとうございました。分かりやすい解説で無事、href属性を抽出することができました。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

BeautifulSoup URL取得について

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問