#知りたいこと
機械学習のランダムフォレストの分類について学んでいました。
ランダムフォレストはアンサンブル学習と言って,複数の決定木の出力から,多数決で分類器全体の出力を決定します。
そこで,私が気になった点として,多数決の票数によって分類器全体の出力の信頼性?が変わるのではないかと思いました。
例として,決定木10本で2値分類を行った場合,10本全てがTrueと出力する結果と,7本がTrueで3本がFalseを出力した結果では,両方とも多数決によってTrueとなりますが,10本とも全てTrueの方が正解データと一致しやすいのではないかと思いました。
そこで,これらの多数決の票数や,票数の割合を示す指標や専門用語などはありますでしょうか?
有識者の方々,ご教授のほどよろしくお願いします。
> 例として,決定木10本で2値分類を行った場合
具体的なコードを示すことは可能ですか?
プログラムはありません。
アンサンブル学習の理論的な話で、票数や票数の割合を表す指標が無いか調査していました。
> 10本とも全てTrueの方が正解データと一致しやすいのではないかと思いました。
"10本とも全てTrue"とはどのような状況で起きるのでしょうか?特徴量が極端に少ない場合でしょうか??
>特徴量が極端に少ない場合でしょうか??
特徴量が極端に少ない場合に起きるかは分かりません。
だた、アンサンブル学習で多数決で出力を決める場合に、票数の内訳が6対4や7対3、8対2,9対1、10対0など、入力するデータによって結果が変わってくると思います。
そこで、票数や票数の割合に関する議論がされていないか質問しました。
直接の回答(多数決の票数を示すもの)ではありませんが、バイアス、バリアンスが、質問者様の求める「指標」として適切かと思います。以下ご参考です。
https://agency-star.co.jp/public/column/ensemble-learning
アンサンブル学習はバイアスを抑えて精度を上げます。しかしながら、その分学習回数が多くなるのでバリアンスが高くなり過ぎるという面があります。バイアスを抑えることも重要ですが、今度はバリアンスを上げすぎないようにバランスをとらなければなりません。そのバランスの度合いが難しいのがアンサンブル学習です。
toastさんありがとうございます。
調べてみたいと思います。
あなたの回答
tips
プレビュー