辞書のデータが自分の思っているものと違います。

前提・実現したいこと

いつもご教示くださりありがとうございます。

競馬のデータをスクレイピングしています。
netkeibaからデータを取ってきて、自分の思った通りにスクレイピングできているのですが、
後でデータを加工できるように作った辞書(=horse_results)の中身が書き換えられてしまいます。
同時に、horse_rsultsをコピーして作ったpast_resultsも書き換えられています。

horse_resultsにpd.read_html(url2)[0]のデータが残るコードを教えてください。

発生している問題・エラーメッセージ

エラーではないのですが、horse_resultsに格納したデータが上書きされてしまいます。

該当のソースコード

import requests
import re
from bs4 import BeautifulSoup
import time
import pandas as pd
from datetime import datetime as dt


url = 'https://race.netkeiba.com/race/shutuba.html?race_id=202005021212'


html = requests.get(url)
html.encoding = 'EUC-JP'
soup = BeautifulSoup(html.text, "html.parser")
time.sleep(1)
syusso = soup.find('table').find_all('a', attrs = {'href': re.compile('^https://db.netkeiba.com/horse/')})
    
syusso_list = []
for uma in syusso:
    horse_id = re.findall(r'\d+', uma['href'])
    syusso_list.append(horse_id[0])
    
horse_results = {}                                  
for horse_id in syusso_list:                                      
    url2 = 'https://db.netkeiba.com/horse/result/' + horse_id       
    horse_results[horse_id] = pd.read_html(url2)[0]  

past_results = horse_results.copy()
    
processed_horse_results = {}
for horse_id, df in past_results.items():
    
    df['日付2'] = [dt.strptime(i, "%Y/%m/%d") for i in df['日付']]
    
    df['コース'] = df['距離'].map(lambda x:str(x)[0])
    df['距離2'] = df['距離'].map(lambda x:str(x)[1:]).astype(int)
    
    df.drop(['天気', '映像', '頭数', '枠番', 'ﾀｲﾑ指数', '通過', 'ペース', '上り','騎手', 'R', '馬場指数', '斤量', 'オッズ', '人気', '馬体重',\
                 '厩舎ｺﾒﾝﾄ', '備考', '賞金', '勝ち馬(2着馬)', '日付', '距離', '馬番'], axis = 1, inplace = True)
    
    processed_horse_results[horse_id] = df

試したこと

processed_horse_results以下をコメントアウトして、horse_resultsとpast_resultsにはBeautifulSoupで抽出したデータが入っていることを確認しました。

補足情報（FW/ツールのバージョンなど）

Jupyter Labを使っています。

meg_

2020/06/07 07:42

syusso_listには正しくデータが格納されていますか？

Azzukky

2020/06/07 07:44

meg_様 syusso_listは何度確認しても思った通りのデータが格納されています。

meg_

2020/06/07 07:50

syusso_listにはもちろん重複データはないんですよね？

Azzukky

2020/06/07 07:53

meg_様重複データはございません。なぜ最後まで実行すると、processed_horse_resultsとhorse_resultsが同じデータになってしまうのかがわからないのです。

Daregada

2020/06/07 08:02

Python自体は門外漢なので回答しませんが、shallow copyになっていて、二つのリスト(ですよね?)内の各データが同じオブジェクトを指しているのでは?

Azzukky

2020/06/07 08:09

Daregada様確かに、同じキー(=horse_id)を使いまわしています。これが良くないのか、それすらわかってません。

Daregada

2020/06/07 08:17 編集

キーじゃなくて、キーで検索される内容のほうですね。オブジェクトの識別子を表示する機能か関数がきっとあるはずなので、それでhorse_resultsとprocessed_horse_resultsに格納されている、同じキーに対するそれぞれの内容の識別子(Pythonだとどんな形式かまったくわかりませんが)を比較してみればいいんじゃないでしょうか。

Azzukky

2020/06/07 08:33

なんとなく、最後の一行がおかしいような気がしているのです。

行動規範の内容に同意します

回答1件

ベストアンサー

Daregadaさんのご指摘通りのようで、辞書のコピーがshallowcopyになっているものと思われます。

past_results = horse_results.copy()は、辞書に格納された中身まではコピーせず、中身は共有してしまいます。
そのため、最後のforでpast_resultsから取り出したdfを書き換えると、このdfはpast_resultsの中身でも共有されていますし、horse_resultsの中身でも共有されているので、みんな書き換わってしまうのです。

辞書を中身までコピーしたい場合は、import copyして、past_results = horse_results.copy()の部分をpast_results = copy.deepcopy(horse_results)としてください。

これで、まず、past_resultsとhorse_resultsが中身も含めて独立しますので、horse_resultsが書き換えられることはなくなるはずです。

（ただ、これだけではpast_resultsはまだ書き換わってしまいます。forでpast_resultsから取り出したdfが共有されているためです。後続のコードが分からないので最適な直し方が分かりませんが、forで使うのをpast_resultsではなくpast_resultsからdeepcopyしたものにするのが良いかも知れませんね。）

＜追記＞
Daregadaさんのコメントにある「オブジェクトの識別子を表示する機能か関数」は、Pythonではid()です。以下のページの解説が分かりやすいかと思います。
Pythonのcopy関数とdeepcopy関数の違いと使い方

投稿2020/06/07 13:11

編集2020/06/07 13:51