HTMLから特定の文字列の取得

実現したいこと

htmlから特定の文字列（race_id）の取得

前提

発生している問題・エラーメッセージ

"https://race.netkeiba.com/top/race_list.html?kaisai_date=20231007"
から東京で行われた12回のレースのレースidを取得したいです。htmlでは<dd class="RaceList_Data">にあるのですが、取得できません。アドバイスよろしくお願いします。

エラーは出ていません

該当のソースコード

python
1import requests
2from bs4 import BeautifulSoup
3import re
4
5url = "https://race.netkeiba.com/top/race_list.html?kaisai_date=20231007"
6res = requests.get(url)
7soup = BeautifulSoup(res.content, 'html.parser')
8
9links = [u.get('href') for u in soup.find_all('a')]
10
11IDs = [re.search(r'\d{12}', str(link)) for link in links if re.search(r'\d{12}', str(link)) != None]
12IDs

試したこと

ssoup=str(soup)
re.findall(r'\d{12}', ssoup)
soupをstr型にしてHTMLの文字列から12桁の数字を探したが存在しなかった。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答2件

自己解決

python
1driver.get(url)
2res = driver.page_source
3
4soup = BeautifulSoup(res, 'html.parser')
5elems = soup.find_all("li", class_="RaceList_DataItem")

request.getではなくdriver.getを使用することで目的のURLが含まれるHTML部分を抽出できました。

投稿2023/10/26 03:20

Jane-1003

総合スコア5

取得したHTMLの中に無いと言うことは、JavaScriptでその後に追加された要素でしょうから、
JavaScriptを実行するか、そのロジックと同じ処理をPythonで実装するかしないと存在しない要素です。
普通は、ウェブブラウザー＋Seleniumライブラリーを使って、ブラウザーにJavaScriptを実行させて要素を作り、取得します。

なお、

soupをstr型にしてHTMLの文字列から
取得したHTMLの中を調べるのは、普通はsoupに渡す前のHTMLであるres.contentを見ます。

投稿2023/10/19 09:13

otn

総合スコア86363

otn

2023/10/19 09:17 編集

> htmlでは<dd class="RaceList_Data">にあるのですが、おそらくブラウザーの開発者ツールで見たのでしょうが、requests.get で取得するHTMLは、画面を右クリックで「ページのソースを表示」で表示されるものです。もしくはブラウザーの設定でJavaScriptを無効にした状態でページを見るか。

行動規範の内容に同意します

あなたの回答