アンサンブル学習について（識別機の重要度を確認する）

kaggleを取り組んでいてアンサンブル学習について疑問点がでてきたので質問させていただきます。
アンサンブル学習を採用している方のほとんどが、説明変数の重要度をモデルごとに計算していると思います。

質問）
・説明変数ごとに似通った重要度を示すモデルを用いるよりも、重要視している説明変数がまったく異なるようなモデルをアンサンブルしたほうが、一般的には精度は改善されるのでしょうか？

行動規範の内容に同意します

回答2件

ベストアンサー

・説明変数ごとに似通った重要度を示すモデルを用いるよりも、重要視している説明変数がまったく異なるようなモデルをアンサンブルしたほうが、一般的には精度は改善されるのでしょうか？

「一般的に」が言えないようなタスクなので機械学習を適用する訳で、そういう観点からすると「一般的に言えることはありません。ケースバイケース」という回答になります。

それだけだと寂しいので、以下余談。

変数重要度が出せたとして、まず、

ということが言えます。すごく精度の悪いモデルの出した変数重要度は、まあ役には立たないでしょう。

一方、ある程度まともなモデルなら、

ということが言えると思います。要するに目的変数と相関の高い説明変数の重要度が大きくなるだけです。モデルによってクセとかは当然あると思うんですが、それでも複数の（ある程度データの識別にちゃんと役立つモデルを）同じデータにfitさせればそんなに大きくは違わない結果が出ると思います。

アンサンブルにはいろいろありますが、けっきょくのところ結果を混ぜるのはモデルのクセを緩和して全体として正しい結果にしたいというモチベーションからだと思います。

なので、

というようなことは言えると思います。

投稿2019/04/04 10:18

総合スコア30933

はい、質問の通りです。
理由としては、相関が高い説明変数のモデルは、間違える時は似たような間違いを犯すからですね。これだと、アンサンブル学習をする意味がないです。

そのために、独立性を確保するためのランダムサンプリングしたデータを用いたりしています。

投稿2019/04/04 07:29

総合スコア1408

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問