回答率: 85.36%

質問するログイン新規登録

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

詳細はこちら

トップ Pythonに関する質問

Q&A

解決済

1回答

955閲覧

hrefタグ内のURLが取り出せない

総合スコア4

0グッド

0クリップ

投稿2021/02/26 03:19

0

0

スクレイピングで取得したhrefタグ要素から、URLのみを取得したいのですが
取得したデータから、URLが抽出できず、エラーが出てしまいます。

t_linkまでの過程で、データを取得できていることを確認したのですが
その後の抽出過程を追加したところ、エラーが出てしまいます。

シンプルなコードに縮小しましたが、調べてもどこが悪いのかがわかりません。
アドバイスをお願い致します。

import requests
import bs4

url = 'https://finance.yahoo.co.jp/cm/message/1009984/a5bda5ua5ha5pa5sa5af/818'

res = requests.get(url)
soup = bs4.BeautifulSoup(res.text,'html.parser')

t_link_class_name = '#cat-pass > ul > li:nth-child(2) > a'
t_link = soup.select(t_link_class_name)
t_url = t_link.get('href')

print (t_url)

理想のデータ取得結果：

https://finance.yahoo.co.jp/cm/thread/1835700

エラー内容：

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-23-7b2ceca55c57> in <module>
      9 t_link_class_name = '#cat-pass > ul > li:nth-child(2) > a'
     10 t_link = soup.select(t_link_class_name)
---> 11 t_url = t_link.get('href')
     12 
     13 print (t_url)

AttributeError: 'list' object has no attribute 'get'

行動規範の内容に同意します

回答1件

0

ベストアンサー

t_linkはリストなのでt_url = t_link[0].get('href')などのように要素を取り出さないとgetできません。

というのとは別に、下記のようにそもそもスクレイピングが禁止されていることは確認されましたか？

Yahoo!ファイナンスでは、Yahoo!ファイナンスに掲載している株価やその他のデータを、プログラム等を用いて機械的に取得する行為（スクレイピング等）について、システムに過度の負荷がかかり、安定したサービス提供に支障をきたす恐れがあることから禁止しています。

Yahoo!ファイナンス掲載情報の自動取得（スクレイピング）は禁止しています

投稿2021/02/26 03:55

総合スコア3966

2021/02/26 04:11

なるほど、文字列ではなくリストとして取出していたのですね。頂いたアドバイス通りにしましたら、無事取得できました。尚、スクレイピング禁止されていることは知りませんでした。教えて頂きありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ Pythonに関する質問

hrefタグ内のURLが取り出せない