質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

1963閲覧

<a>タグ内にあるリンク先を取得方法について

keyakeyako

総合スコア9

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

1クリップ

投稿2018/06/14 04:57

前提・実現したいこと

お世話になります。
pythonについて、皆さま方のご知見を伺いたくて、
質問させて頂きます。

以下のHTML内で<img>タグ内にある画像IDを使用して、
<a>タグ内にある"href"の"リンク先"を取得したいです。

Beautiful Soupでスクレイピングしてみたのですが、<img>タグ内のsrcは取り出せたのですが、
そこから<a>タグ内を取得出来る方法が分からない状態でございます。

何卒、ご知見を伺わせて頂ければ幸いです。

該当のソースコード

html

1<div class="inner-article"> 2 <a style="height:150px;" href="リンク先"> 3 <img width="500" height="500" src="//xx.jp/画像ID/xxx.jpg" alt=" xxxxx"> 4 </a> 5</div>

試したこと

Python

1http = 'URL' 2html = requests.get(http) 3soup = BeautifulSoup(html.text, 'lxml') 4 5for a in soup.find_all('img'): 6 print(a.get('src'))

上記で<img>タグ内のsrcは取り出せたのですが、<a>タグ内を取得出来る方法が分からない状態でございます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

m.ts10806

2018/06/14 05:04

Python分からないので見た感じですが、soup.find_all('a') のようにはできないのでしょうか?
keyakeyako

2018/06/14 05:09

ご回答ありがとうございます。soup.find_all('a') は出来るのですが、そこから<img>タグないの画像IDを検索する方法がわからない状態です。
m.ts10806

2018/06/14 05:10

ん?それ、要件変わってません?もう少しきちんと具体的に要件をまとめて質問を編集していただけますか?
keyakeyako

2018/06/14 05:17 編集

説明文が分かりづらく大変申し訳ございません。<img>タグ内にある画像IDしか分かっていない状態で、<a>タグ内のhrefのリンク先を取得したいです。
m.ts10806

2018/06/14 05:48

後だしの要件が多いので、「もう少しきちんと具体的に要件をまとめて”質問を編集”していただけますか?」 コメントでは埋もれます。
guest

回答1

0

ベストアンサー

既にmts10806さんがコメントされているとおり、そのまま使えば良いと思いますが...

Python

1for a in soup.find_all('a'): 2 print(a.get('href'))

ひょっとしてこういうことですかね。

Python

1for a in soup.find_all('a'): 2 print(a.get('href')) 3 print(a.find('img').get('src'))

コメントを受けて

思いつくままに強引に書くとこんな風になるでしょうね。

Python

1purpose = '//xx.jp/画像ID/xxx.jpg' 2for a in soup.find_all('a'): 3 if a.img['src'] == purpose: 4 href = a['href'] 5 break 6else: 7 href = None

ただ、もっと簡単に書く方法がありそうな気もします。 ありました。

Python

1purpose = '//xx.jp/画像ID/xxx.jpg' 2href = soup.find('img', src=purpose).parent['href']

検索に失敗する場合については考慮していませんので、ご注意ください。

さらにコメントを受けて

こういうことでしょうか。

Python

1purpose = '//xx.jp/{id}/xxx.jpg'.format(id=画像id) 2href = soup.find('img', src=purpose).parent['href']

投稿2018/06/14 05:09

編集2018/06/14 06:06
LouiS0616

総合スコア35660

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

keyakeyako

2018/06/14 05:19

ご回答ありがとうございます。説明文が分かりづらく大変申し訳ございません。<img>タグ内にある画像IDしか分かっていない状態で、<a>タグ内のhrefのリンク先を取得したいです。
keyakeyako

2018/06/14 05:23

ある所定の時間になると、画像IDのリンク先に自動でアクセスするプログラムを作成しているのですが、こちらの情報として、画像IDからどのようにリンク先にアクセスするかが分からない為、困っております。
LouiS0616

2018/06/14 05:42

追記しておきました。
keyakeyako

2018/06/14 05:44

ご回答感謝いたします。矢継ぎ早に質問して、大変恐縮なのですが、a.img['src']を記載すると「TypeError: 'NoneType' object is not subscriptable」エラーが発生いたします。何か私の記載方法に問題があったのでしょうか。
LouiS0616

2018/06/14 05:48 編集

img属性のないaタグを拾ったのでしょうね。 一番最後に追記したコードを試してみてください。
keyakeyako

2018/06/14 06:00

ありがとうございます。hrefのリンク先を取得する事が出来ました。非常に助かりました。 最後にですが、purpose = '画像ID' にして、ワイルドカードでsrcを検索する事はできますでしょうか。ご質問ばかりで大変申し訳ございません。
LouiS0616

2018/06/14 06:02

ワイルドカードというと、どのようなものをイメージされてますか? 例えば特定の文字列をidに含む画像を探したりしたいのでしょうか。
LouiS0616

2018/06/14 06:06

いちおう追記しておきました。こういうことでしょうか。
keyakeyako

2018/06/14 06:08

おっしゃる通りです。 src = "//xx.jp/画像ID/xxx.jpg"というsrcになっているので、指定した画像IDが含まれている場合に「//xx.jp/画像ID/xxx.jpg」を取得できるようにしたいです。
keyakeyako

2018/06/14 06:11

ご回答ありがとうございます。画像IDしかわかっていない状態で「//xx.jp/画像ID/xxx.jpg」を取得できるようにしたいです。
LouiS0616

2018/06/14 06:18

またこっそり追記しておいたので、更新してご確認ください。
keyakeyako

2018/06/14 06:20

すみません、自己解決出来ました。長い時間ご知見を頂き感謝申し上げます。ほんとうに助かりました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問