beautifulsoup を使って、
https://gigazine.net/をスクレイピングの練習のために使用しています。
下記にあるように a タグの中に、 href とtitle がペアで含まれているのを見つけたのでこれらを
ペアで取得したいのですが、どのように取得すればいいのかわからないです。
html
1<a href="https://gigazine.net/news/20210715-dogecoin-creator-attack-on-whole-ecosystem/" title="「ドージコイン」の開発者が暗号資産を強く批判し賛否両論が巻き起こる"><span>「ドージコイン」の開発者が暗号資産を強く批判し賛否両論が巻き起こる</span></a> 2
https://gigazine.net/ の中にはhref がたくさん含まれており、a タグのものでhref がついているものを引っ張ってくると、
html
1<a href="https://gigazine.net/news/20210715-dogecoin-creator-attack-on-whole-ecosystem/"><img src="https://i.gzn.jp/img/2021/07/15/dogecoin-creator-attack-on-whole-ecosystem/00_m.jpg" id="lz1"></a>
のようにtitle がないものや
html
1<a class="ctlink" href="https://gigazine.net/news/20210715-dogecoin-creator-attack-on-whole-ecosystem/"><span class="catab">メモ</span></a>
のように 不要な span クラスが含まれる (必要なのはあくまでhrefとtitle のペアのみで、この2つを辞書に取り込みたいです)
ものも含まれてしまいます。
ページの中で、a タグ を取り出し、そしてその中で href と titleがペアで存在するものを抜き出すことを
beautifulsoupでなんとか実現できないでしょうか?
よろしくお願いいたします。
回答2件
あなたの回答
tips
プレビュー