質問編集履歴

望みの文を追加しました。

2020/11/14 06:41

投稿

zero_zero

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,11 +1,7 @@
 表記の件でマージする方法を教えてください。
-（なかなかデバックのコツという書籍が探し出せず質問させていただきました。）
+（デバックのコツという書籍が余りないようで、ここで質問させていただきました。）
-（テーブルの中身の存在はprint文で確認ずみです。）
-（やりたいことはコメント文を記載しました。行数が一致していないというあたりはあれど、どう進めていいかと。）
 ---------
 コードは以下の通りです。
 ```
@@ -62,7 +58,7 @@
                 except:
                     continue
-            #　やりたいことはここ　↓　コメントアウトするとtqdmが走り出します。
+            #　ここの表結合がうまくいかない。
             race_results[race_id] = pd.concat([race_results[race_id], horse_results_sub])
@@ -96,4 +92,14 @@
 results = pd.concat([results[key] for key in results], sort=False)
 results.to_pickle('../all_results.pkl')
-```
+```
+望んでいるデータは「https://db.netkeiba.com/race/201901010101」の表（競馬のレース結果の表）に同ホームーページでスクレイピングした「["race_id","horse_id","jocky_id","trainer_id"]」のデータ表を横に追加した表を作りたい。
+上記のコードでは、
+race_results[race_id]のデータフレームにhorse_results_sub]のデータフレームをマージさせたいのですが、
+race_results[race_id]のデータフレームが出力されてしまいます。
+望んでいる出力結果の例
+![![イメージ説明](28eed4cffa254a190400c89b72951333.jpeg)](e1524d27680522001f27ceac1c28eb86.jpeg)

コードを見やすくしました。

2020/11/14 06:40

投稿

zero_zero

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -8,6 +8,7 @@
 ---------
 コードは以下の通りです。
+```
 import pandas as pd
 import requests
@@ -93,4 +94,6 @@
 for key in results:
     results[key].index = [key] * len(results[key])
 results = pd.concat([results[key] for key in results], sort=False)
-results.to_pickle('../all_results.pkl')
+results.to_pickle('../all_results.pkl')
+```

コードの詳細を記載しました。エラーコードは出力されなかったです。

2020/11/14 05:54

投稿

zero_zero

スコア10

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,5 +1,96 @@
-pandas便利で使っています。
-関数の外なら２次元同士のテーブルをマージすることはできるのですが、関数の中でデータフレームをマージすることができません。
-（テーブルの中身はprint文で確認ずみ）
+表記の件でマージする方法を教えてください。
+（なかなかデバックのコツという書籍が探し出せず質問させていただきました。）
+（テーブルの中身の存在はprint文で確認ずみです。）
+（やりたいことはコメント文を記載しました。行数が一致していないというあたりはあれど、どう進めていいかと。）
+---------
+コードは以下の通りです。
+import pandas as pd
+import requests
+from bs4 import BeautifulSoup
+import openpyxl
+import xlwt
+import datetime
+import time
+import os
+import pprint
+from tqdm.notebook import tqdm as tqdm
+df_horse_results_sub = pd.DataFrame(index=[], columns=[])
+horse_results_sub =[[],[],[]]
+race_results_ids = []
+horse_results_ids = []
+jocky_results_ids = []
+trainer_results_ids = []
+def scrape_race_results(race_id_list, pre_race_results={}):
+    global horse_results_sub
+    global df_horse_results_sub
+    race_results = pre_race_results
+    for race_id in tqdm(race_id_list):
+        if race_id in race_results.keys():
+            continue
+        try:
+            url = "https://db.netkeiba.com/race/" + race_id
+            race_results[race_id] = pd.read_html(url)[0]
+            #print(url)
+            response_sub = requests.get(url)
+            response_sub.encoding = response_sub.apparent_encoding
+            soup_sub = BeautifulSoup(response_sub.text, 'html.parser')
+            trs3 = soup_sub.find_all(class_="txt_l")
+            for each in trs3:
+                try:
+                    Horse_results_link = each.find('a')['href']
+                    if Horse_results_link[1:6] == "horse":
+                        race_results_ids.append(race_id)
+                        horse_results_ids.append(Horse_results_link[-11:-1])
+                    if Horse_results_link[1:7] == "jockey":
+                        jocky_results_ids.append(Horse_results_link[-6:-1])
+                    if Horse_results_link[1:8] == "trainer":
+                        trainer_results_ids.append(Horse_results_link[-6:-1])
+                    horse_results_sub = [race_results_ids,horse_results_ids,jocky_results_ids,trainer_results_ids]
+                    horse_results_col = ["race_id","horse_id","jocky_id","trainer_id"]
+                    df_horse_results_sub = pd.DataFrame(horse_results_sub).T
+                    df_horse_results_sub.columns = horse_results_col
+                except:
+                    continue
-確認するポイントなどアドバイスありましたらお願いします。
+            #　やりたいことはここ　↓　コメントアウトするとtqdmが走り出します。
+            race_results[race_id] = pd.concat([race_results[race_id], horse_results_sub])
+            time.sleep(1)
+        except IndexError:
+            continue
+        except:
+            break
+    return race_results
+race_id_list = []
+for place in range(1, 11, 1):
+    for kai in range(1, 6, 1):
+        for day in range(1, 9, 1):
+            for r in range(1, 13, 1):
+                for nen in range(2019, 2020 ,1):
+                    race_id = (
+                          str(nen).zfill(4)
+                        + str(place).zfill(2)
+                        + str(kai).zfill(2)
+                        + str(day).zfill(2)
+                        + str(r).zfill(2)
+                    )
+                    race_id_list.append(race_id)
+results = scrape_race_results(race_id_list)
+for key in results:
+    results[key].index = [key] * len(results[key])
+results = pd.concat([results[key] for key in results], sort=False)
+results.to_pickle('../all_results.pkl')