データの読み込み方法によって読み込み後の計算速度に差があるのか？

Question

### 前提・実現したいこと
質問というより疑問ですが，実行のたびにpandas_datareaderを使って日経225先物とTOPIXの株価をstooqからスクレイピングして得たデータを使用して計算していたのですが（以後，方法１と記述），
stooqからスクレイピングをしてcsvに保存したデータを使って，実行のたびにcsvを読み込んでプログラムを計算した（以後，方法２と記述）ところ計算が1.4倍くらい早くなりました．（下にプログラムがあります）

方法1も2もデータはdfにいれて，dfから値を参照しているので，途中でcsvを読み込んだり，スクレイピングをしていないです．最初の読み込みの時間に差が生じるのは読み込み方法が違うのでわかりますが，途中の計算のスピードが変わるのは理解できません．

プログラムでは，日経225先物とTOPIXを使っていて以下のプログラムの後では，dfを使って値を呼び出しています．
深層強化学習で株の売買戦略の計算をしているのですが，具体的にどのような計算で処理速度が変わったかのプログラムがないので情報不足かと思いますが（あまりにも長いので），答えていただけると幸いです．
また，データの読み込み方によって，その後の処理が早くなる方法等あれば知りたいです．

### 方法２のコード

```python
import pandas as pd
import datetime__イタリックテキスト__
import pandas_datareader

start = datetime.date(2018, 1, 1)
end = datetime.date(2019, 12, 31)
date_split = '2018-12-31'
stockcode1 = "^TPX"
stockcode2 = "^NKX"
data1 = pandas_datareader.stooq.StooqDailyReader(stockcode1, start, end).read()
data2 = pandas_datareader.stooq.StooqDailyReader(stockcode2, start, end).read()
data1= data1.sort_values(by="Date",ascending=True)
data2= data2.sort_values(by="Date",ascending=True)
#片方のデータしかない日付を除去する
df = pd.merge(data1, data2, on='Date', how='inner')
```

### 方法１のコード

```python
import pandas as pd

data_start ='2018-01-01'
data_end = '2019-12-31'
data1 = pd.read_csv('NK225.csv')
data1 = data1.set_index('Date')
data1 = data1[data_start:data_end]
data2 = pd.read_csv('TOPIX.csv')
data2 = data2.set_index('Date')
data2 = data2[data_start:data_end]
#片方のデータしかない日付を除去する
df = pd.merge(data1, data2, on='Date', how='inner')

```

Accepted Answer

- データの読み込み方法によって読み込み後の計算速度に差があるのか？

あります。

計算時間は、実行される機械命令数だけではなく、データの配置も影響しますし、実メモリ不足によるページングも影響します。

hiragagaさんのコードでは、実メモリ不足によるページングが影響している可能性が高いです。
それにはPythonのメモリ管理が影響しています。
Pythonのメモリ管理は動的にオブジェクトを割当て、参照カウントによるガーベジコレクションを行っています。この方式では、解放されたメモリの再利用が難しいのと、循環参照によりメモリ未回収が起こってしまい、そのために使われていないメモリが多くなるために実メモリが少なくなりページング時間が増えてしまうのです。

循環参照によりメモリ未回収の対策は[公式ドキュメント gc --- ガベージコレクタインターフェース](https://docs.python.org/ja/3/library/gc.html)をお読みください。
それでも改善しない分は解放されたメモリの再利用問題です。これは、一旦ファイルに保存し、それ読み込むことで改善されます。つまり、方法２をやりなさいということです。

前提・実現したいこと

方法２のコード

方法１のコード

関連した質問