回答率: 85.31%

質問するログイン新規登録

トップに関する質問 pythonで特定のclassタグ内のURLのみ取得したい

編集履歴

質問編集履歴

1

該当HTMLを記載しました

2020/03/26 14:59

投稿

スコア9

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,16 +1,36 @@
 ### 前提・実現したいこと
+あるサイトのリンクを抽出しているのですが、URL上にあるすべてのリンクではなくclass=HorseName以下のリンクのみ抽出したいと思っています。
-競馬サイト内の特定のリンクのみ(馬のリンクのみ)抽出したいのですが、うまくいきません。
+### 該当のソースコード
+from bs4 import BeautifulSoup
-### 発生している問題・エラーメッセージ
+import urllib.request as req
+url = "https://race.netkeiba.com/race/shutuba.html?race_id=202006030111&rf=race_list"
+res = req.urlopen(url)
+soup = BeautifulSoup(res, 'html.parser')
+url_items = soup.find_all(class_='HorseName')
+for x in url_items:
+    print(x.get('href'))
+### 発生している問題・エラーメッセージ
+上記を実行すると以下のようにNoneがかえります。
 None
@@ -44,32 +64,42 @@
-### 該当のソースコード
-from bs4 import BeautifulSoup
-import urllib.request as req
-url = "https://race.netkeiba.com/race/shutuba.html?race_id=202006030111&rf=race_list"
-res = req.urlopen(url)
-soup = BeautifulSoup(res, 'html.parser')
-url_items = soup.find_all(class_='HorseName')
-for x in url_items:
-    print(x.get('href'))
+なお抽出したいリンクを含むHTMLは以下の通りです。
+<div>
+<span class="HorseName">
+<a title="アイスバブル"
+href="https://db.netkeiba.com/horse/2015104689" target="_blank">アイスバブル<img width="18" class="disp_none Favorite" id="myhorse_2015104689" alt="" src="https://cdn.netkeiba.com/img.racev3/common/img/icon/icon_horse.png?2019073001">
+</a>
+</span>
+</div>
 ### 試したこと
-class_タグをaで試したもできませんでした。
+上記の状態でprint(x)を実行すると以下のように返ります。
+<span class="HorseName"><a href="https://db.netkeiba.com/horse/2015105090" target="_blank" title="レッドレオン">レッドレオン<img alt="" class="disp_none Favorite" id="myhorse_2015105090" src="https://cdn.netkeiba.com/img.racev3/common/img/icon/icon_horse.png?2019073001" width="18"/></a></span>
+HTMLは抽出できているのですが、この中の
+a href="https://db.netkeiba.com/horse/2015105090"
+のリンクの抽出が上手にいってないようです。