スクレイピングできない

競馬の1000mのラップタイムをスクレイピングする際にデータの場所が変わっていることがある。
関数にした際に取り出せない。どのようにコードを書けばスクレイピングできるでしょうか？

基本的に取り出せる

python
1df = {}
2#racce_idをkeyにする
3url = "https://db.netkeiba.com/race/"+race_id 
4#print(race_id)
5df[race_id] = pd.read_html(url)
6df[race_id][5].T[0][1]

実行結果
'12.1 - 10.5 - 11.5 - 12.5 - 12.7'

取り出せない時がある

python
1df = {}
2race_id = '201504020109'
3#racce_idをkeyにする
4url = "https://db.netkeiba.com/race/"+race_id 
5#print(race_id)
6df[race_id] = pd.read_html(url)
7df[race_id][5].T[0][1]

実行結果
'プレミアサービスにご加入して頂くとレース分析が確認できます。プレミアサービス案内へ'

改善版

python
1df = {}
2race_id = '201504020109'
3#racce_idをkeyにする
4url = "https://db.netkeiba.com/race/"+race_id 
5#print(race_id)
6df[race_id] = pd.read_html(url)
7df[race_id][4].T[0][1]

実行結果
'11.8 - 9.9 - 10.6 - 10.8 - 12.0'

Index(['201501010102', '201501010107', '201501010202', '201501010301',
       '201501010402', '201501010406', '201501010503', '201501010606',
       '201501020103', '201501020108',
       ...
       '202010020108', '202010020202', '202010020312', '202010020406',
       '202010020501', '202010020506', '202010020511', '202010020607',
       '202010020703', '202010020808'],
      dtype='object', length=545)

201504020109 の前後でエラーが起きる

関数にして取り出そうとしたができなかった。try,exceptを用いたがうまく行かなかった。

python
1def sprint_1000_scrape(race_id_list):
2    #df = results[results["course_len"]== 1600]
3    df = {}
4    for race_id in tqdm(race_id_list):
5        time.sleep(1)
6        #racce_idをkeyにする
7        url = "https://db.netkeiba.com/race/" + race_id
8        #print(race_id)
9        df[race_id] = pd.read_html(url)
10        #ラップタイムの要素
11        try:
12            df[race_id] = df[race_id][5].T[0][1]
13            #いらない文字を削除
14            df[race_id]  = df[race_id] .split("-")
15            df[race_id] = pd.DataFrame(df[race_id] ).T
16            #print(df[race_id])
17        except:
18            df[race_id] = df[race_id][4].T[0][1]
19            #いらない文字を削除
20            df[race_id]  = df[race_id] .split("-")
21            df[race_id] = pd.DataFrame(df[race_id] ).T
22            #print(df[race_id])
23
24        #カラムを作る
25        df[race_id].columns = ["200m","400m","600m","800m","1000m"]
26        #float型に変換
27        for i in df[race_id].columns:
28            df[race_id][i] = df[race_id][i].astype(float)
29
30            
31    return df

１６００mのときは以下のコードで取り出せた

python
1def mile_1600_scrape(race_id_list):
2    #df = results[results["course_len"]== 1600]
3    df = {}
4    for race_id in tqdm(race_id_list):
5        try:
6            time.sleep(1)
7            #racce_idをkeyにする
8            url = "https://db.netkeiba.com/race/" + race_id
9            #print(race_id)
10            df[race_id] = pd.read_html(url)
11            #ラップタイムの要素
12            df[race_id] = df[race_id][5].T[0][1]
13            #いらない文字を削除
14            df[race_id]  = df[race_id] .split("-")
15            df[race_id] = pd.DataFrame(df[race_id] ).T
16            #print(df[race_id])
17            #カラムを作る
18            df[race_id].columns = ["200m","400m","600m","800m","1000m","1200m","1400m","1600m"]
19            #float型に変換
20            for i in df[race_id].columns:
21                df[race_id][i] = df[race_id][i].astype(float)
22            
23        except Exception as e:
24            print(e)
25            break
26        
27    return df
28
29results = pd.read_pickle("results.pickleのコピー")
30M1600 = results[results["course_len"]== 1600].index
31race_id_list = M1600.drop_duplicates()
32
33mile = mile_1600_scrape(race_id_list)
34#データフレームのkeyをrace_idに
35for key in mile.keys():
36    mile[key].index=[key]
37
38#データを繋げる
39time_1600m = pd.concat([mile[key] for key in mile.keys()], sort = False)

行動規範の内容に同意します

回答2件

おはようございます。

問題文読ませていただきました。

よくわかっていませんが、こんな感じでいかがでしょうか？

python
1from tqdm import tqdm
2import time
3import pandas as pd
4
5
6def mile1600Scrape(raceIdList):
7    lapTimeList = []
8    for raceId in tqdm(raceIdList):
9        time.sleep(1)
10        url = "https://db.netkeiba.com/race/" + raceId
11        data = pd.read_html(url)
12        try:
13            lapTime = data[5][1][0].replace(' ', '')
14            lapTimeList.append(lapTime)
15        except Exception as e:
16            print(e)
17            continue
18
19    return lapTimeList
20
21
22raceIdList = ['201501010102', '201501010107', '201501010202', '201501010301', '201501010402', '201501010406', '201501010503', '201501010606', '201501020103', '201501020108',
23              '202010020108', '202010020202', '202010020312', '202010020406', '202010020501', '202010020506', '202010020511', '202010020607', '202010020703', '202010020808']
24
25print(mile1600Scrape(raceIdList))