netkeiba.com におけるスクレイピングのページ遷移

前提・実現したいこと

・「netkeiba.com」という競馬情報サイトから「ワイド」のオッズを取得したい(スクレイピング)。
・今回、あるレース(朝日セントライト記念)のワイドのオッズを取得するため、オッズ関するページ「https://race.netkeiba.com/?pid=odds&id=c201906040511&mode=top」から情報の取得を試みる。

補足
・本ページは各馬券種類の「上位人気一覧」が記載されており、
ページ中のタブから馬連、ワイド等各種馬券のオッズ一覧のページに遷移できる構成(ただし、遷移後のページはTOPページとURLは共通)

発生している問題・エラーメッセージ

何故か「ワイド」ページのオッズでなく
「上位人気一覧」ページの情報を取得してしまう。

出力
2.0,
2.5,
2.1,
2.6,
・・・

↑これは複勝上位人気
「上位人気一覧」ページの「fuku_odds」タグの情報を取得してしまっているようです。

該当のソースコード

Python3
1
2from bs4 import BeautifulSoup
3import pandas as pd
4from selenium import webdriver
5
6#ブラウザを指定して起動
7driver = webdriver.PhantomJS()
8#オッズのページにアクセス(朝日セントライト記念)
9driver.get('https://race.netkeiba.com/?pid=odds&id=c201906040511&mode=top')
10#「ワイド」ボタンを指定して押す(ワイドのオッズを表示したい)
11driver.find_element_by_link_text("ワイド").click()
12
13#ワイドのオッズが表示されたページのソース
14page_source = driver.page_source
15soup = BeautifulSoup(page_source, 'html.parser')
16
17dst = ''
18#ワイドのオッズのページにおいて、ワイドオッズを取得
19dst = soup.find_all('span', attrs=['class', 'fuku_odds'])
20dst
21

試したこと

試しに「ワイド」のページに遷移できているか確認するため、
driver.find_element_by_link_text("ワイド").click()
の後に、スクショを撮る操作を加えたところ、
確かに「ワイド」のオッズページのスクショが撮れ、ページの遷移はできているみたいです。

補足情報（FW/ツールのバージョンなど）

Win10環境
Jupyter Notebook環境で実行しています。

行動規範の内容に同意します

回答1件

ベストアンサー

jsonを直接取得しています

python
1import requests
2from bs4 import BeautifulSoup
3import re
4
5payload = {
6    "pid": "show_oddsgraph_js",
7    "raceid": "201906040511",
8    "race[race_id]": "201906040511",
9    "race[race_name]": "セントライト記念(G2)",
10    "race[race_name_filtered]": "セントライト記念",
11    "race[race_course]": "中山",
12    "race[race_day]": "月",
13    "race[race_number]": "11",
14    "race[race_members]": "18",
15    "race[race_date]": "09/16",
16    "race[race_shimekiri]": "15:43",
17    "user[inetID]": "",
18    "user[userNumber]": "",
19    "user[pass]": "",
20    "user[parsNumber]": "",
21    "user[savedFlag]": 0,
22    "user[ipatAgreement]": "null",
23    "shiki": 5,
24    "housh": 11,
25    "card": "{}",
26    "jkhorse": 1,
27    "jkrow": 1,
28    "colLimit": 10,
29    "isMulti": 0
30}
31
32r = requests.post("https://race.netkeiba.com/", data = payload)
33
34print(r.json())

データ取り出し

python
1data = r.json()
2result = [re.split('[@#]',k) for i in data["dataList"] for j in i for k in j.values() if k]
3print(result)

投稿2019/09/21 11:41

barobaro

総合スコア1286

shinodamel

2019/09/22 02:35

barobaro様ご回答頂きありがとうございます！テストしてみると、無事所望のデータが得られました。ところで恐縮ですが、本webサイト(netkeiba.com)において、payloadに必要なパラメータを調べる方法について、教えていただけないでしょうか？？今後の応用にも生かして行きたいと思っています。