Pythonで作成した機械学習の学習機をサイズを抑えて保存する方法

Question

### 前提・実現したいこと

scikit-learnのRandomForestRegressorで機械学習を行っています。
特徴量は16個で予測値は1個です。
1000000サンプルでトレーニングしたモデルをpickleで保存したところ、容量が4.8GBになりました。
また3000000サンプルにしたところ8.3GBになりました。サンプル数に応じて学習機の容量が増えているように思えます。
モデルの複雑さを制御するパラメータはいじっていません。
機械学習については最近勉強を始めたばかりの初心者ですので、素人考えになりますが、
モデルの複雑さが変わらないのに、サンプル数が増えただけで学習機の容量が増えるというのが釈然としません。
もしpickleで保存するさいに予測に必要ない情報（トレーニングデータなど）も一緒に保存しているのなら、
除いてから保存したいのですが、そのようなことは可能でしょうか？

### 該当のソースコード

```python
from sklearn.ensemble import RandomForestRegressor
import pickle
forest = RandomForestRegressor(n_estimators=198, max_features=10, max_depth=20, n_jobs=22, random_state=1)
forest.fit(X_train_1million, y_train_1million)
print("Training set score: {:.2f}".format(forest.score(X_train_1million, y_train_1million)))
print("Test set score: {:.2f}".format(forest.score(X_test, y_test)))
pickle.dump(forest, open('/home/Forest1M.pickle', 'wb'))

Training set score: 0.98
Test set score: 0.93
Forest1M.pickle　｜ 4,800,958 KB

```
```python
from sklearn.ensemble import RandomForestRegressor
import pickle
forest = RandomForestRegressor(n_estimators=198, max_features=10, max_depth=20, n_jobs=22, random_state=1)
forest.fit(X_train_3million, y_train_3million)
print("Training set score: {:.2f}".format(forest.score(X_train_3million, y_train_3million)))
print("Test set score: {:.2f}".format(forest.score(X_test, y_test)))
pickle.dump(forest, open('/home/Forest3M.pickle', 'wb'))

Training set score: 0.97
Test set score: 0.93
Forest3M.pickle　｜ 8,281,566 KB

```
### 補足情報（FW/ツールのバージョンなど）

Python3、Jupyter Labを使用

Accepted Answer

アルゴリズム的には、データそのものを内部に保持する必要はないはずです。実装を見ていないので、もしかしたら保持してしまう実装になっているかもしれませんけど（基本的には考えづらい）。

ランダムフォレストの場合、パラメータを変えなくても、サンプル数を増やせばモデルの複雑性が上がるということはありえます。データの細かい分布がわかるようになりますし、増えた情報を保持させるために木の各枝が深くなるからです（`max_depth`は最大の深さを制限するだけですので、`max_depth`に達しない枝が実際にはたくさん存在します。サンプル数が増えるとそういう枝が減り、`max_depth`に達した枝が増えます）。

全体で8GBということは木1つあたり40MBほど使っていることになる訳ですが、決定木は最大で1(2^0)+2+4+8+16+32+...+524288(2^19)=1048575の中間ノードを保持しないといけなくなります（木の深さの計算方法の絡みで厳密な数字が間違っている可能性はありますが、概数ではこんなものです。また、あくまでも「最大」の数字で、もっと効率よく保持できれば、あるいは逆に効率が悪くてどこかの枝に偏ってその枝が最大深さに達すれば、当然その分だけ減ります。今回くらいデータ量が多いと、ほぼこれくらい要ると思いますが）。そしたらノード1つで数byte～数十byteくらいの感覚なので、まあそんなもんじゃね？　ということです。

---

こういうケースではjoblib.dumpが良いかもしれません。圧縮して書き出すことが可能です。これでたぶん1/10くらいに減るでしょう。

https://joblib.readthedocs.io/en/latest/generated/joblib.dump.html

別途joblibを入れてもいいですし、実はsklearnの中に入っていて（バンドルされていて）`from sklearn.externals import joblib`でimportすることも可能です。