ランダムフォレストでサンプルを増やしたら精度が落ちました

Pythonのscikit-learnでランダムフォレストを用いております。RandomForestRegressorをbootstrap=Falseで学習を行ったのですが、bootstrap=Trueの方が精度が良くなりました。機械学習では一般的に、学習サンプルが多いほうがモデルの精度は良くなるという認識があったのですが、今回の様に精度が下がるということもありえるのでしょうか？また、それに即した参考文献をご存知のは教えていただければ幸いです。よろしくお願いします。

meg_

2020/10/26 03:44

｢精度が良い・悪い｣と言っているのは、テストデータに対する正解率のことで良いでしょうか？

mmtaro000

2020/10/26 05:43

そうですね．bootstrapを行わないほうが正答率が下がったということなので，データ数が多いほうがうまく学習できるという利点の他に，データ数が多いことによるデメリットが存在しているのではないかと考えていたのですが，調べてもそれらしきことはなく，質問させていただきました．

行動規範の内容に同意します

回答1件

ベストアンサー

3点ほど誤解されている点があると思います。

1点目。

bootstrap=Falseを、ランダムフォレストと分類されているのは、正確ではないと思います。ランダムフォレストという機械学習手法は、ブートストラップサンプリングを特徴の１つとして、それにより精度を向上させているものです。scikit-learnのオプションでbootstrap=Falseにできたからといって、それはもはや「ランダムフォレスト」とは呼べません。また、このことから感覚的に（あとでもう少しきちんと言いますが）「bootstrap=Trueの方が精度が良くなりました」は当たり前だと分かるでしょう。それがランダムフォレストの「工夫」なのですから。

2点目。

bootstrap=Trueにより**「学習サンプル」が減ると解釈されているのは、正確ではない**と思います。１つの決定木はランダムにサンプリングした学習データで求めますが、結局、アンサンブルした状態では、元の学習データを全て使っています。

3点目。

学習サンプルの多さのみが機械学習の精度を決定している、というのも正確ではないです。機械学習は、特徴量の選定方法、前処理、アルゴリズム、等々、多様な要素が影響して、精度に帰結しています。2点目の議論で学習サンプルは減っていないと申しましたが、その件とは別に、ランダムフォレストは、各決定木のアンサンブルをする、という手法で、比較的滑らかなモデルを獲得しています。それにより、汎化性能=未知のデータに対する推論時の精度、を向上させています。

参考: Random Forest

投稿2020/10/26 10:01