<a>タグ内にあるリンク先を取得方法について
解決済
回答 1
投稿
- 評価
- クリップ 1
- VIEW 9,903
前提・実現したいこと
お世話になります。
pythonについて、皆さま方のご知見を伺いたくて、
質問させて頂きます。
以下のHTML内で<img>タグ内にある画像IDを使用して、
<a>タグ内にある"href"の"リンク先"を取得したいです。
Beautiful Soupでスクレイピングしてみたのですが、<img>タグ内のsrcは取り出せたのですが、
そこから<a>タグ内を取得出来る方法が分からない状態でございます。
何卒、ご知見を伺わせて頂ければ幸いです。
該当のソースコード
<div class="inner-article">
<a style="height:150px;" href="リンク先">
<img width="500" height="500" src="//xx.jp/画像ID/xxx.jpg" alt=" xxxxx">
</a>
</div>
試したこと
http = 'URL'
html = requests.get(http)
soup = BeautifulSoup(html.text, 'lxml')
for a in soup.find_all('img'):
print(a.get('src'))
上記で<img>タグ内のsrcは取り出せたのですが、<a>タグ内を取得出来る方法が分からない状態でございます。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+2
既にmts10806さんがコメントされているとおり、そのまま使えば良いと思いますが...
for a in soup.find_all('a'):
print(a.get('href'))
ひょっとしてこういうことですかね。
for a in soup.find_all('a'):
print(a.get('href'))
print(a.find('img').get('src'))
コメントを受けて
思いつくままに強引に書くとこんな風になるでしょうね。
purpose = '//xx.jp/画像ID/xxx.jpg'
for a in soup.find_all('a'):
if a.img['src'] == purpose:
href = a['href']
break
else:
href = None
ただ、もっと簡単に書く方法がありそうな気もします。 ありました。
purpose = '//xx.jp/画像ID/xxx.jpg'
href = soup.find('img', src=purpose).parent['href']
検索に失敗する場合については考慮していませんので、ご注意ください。
さらにコメントを受けて
こういうことでしょうか。
purpose = '//xx.jp/{id}/xxx.jpg'.format(id=画像id)
href = soup.find('img', src=purpose).parent['href']
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.34%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
m.ts10806
2018/06/14 14:04
Python分からないので見た感じですが、soup.find_all('a') のようにはできないのでしょうか?
keyakeyako
2018/06/14 14:09
ご回答ありがとうございます。soup.find_all('a') は出来るのですが、そこから<img>タグないの画像IDを検索する方法がわからない状態です。
m.ts10806
2018/06/14 14:10
ん?それ、要件変わってません?もう少しきちんと具体的に要件をまとめて質問を編集していただけますか?
keyakeyako
2018/06/14 14:17 編集
説明文が分かりづらく大変申し訳ございません。<img>タグ内にある画像IDしか分かっていない状態で、<a>タグ内のhrefのリンク先を取得したいです。
m.ts10806
2018/06/14 14:48
後だしの要件が多いので、「もう少しきちんと具体的に要件をまとめて”質問を編集”していただけますか?」 コメントでは埋もれます。