二つのモデルの精度を比較したい

現在、ランダムフォレストとxgboostを用いて多値分類を行っています。それぞれの評価関数としてはf1_score(avarage = 'micro')を用いています。
ここで、この二つのモデルの精度に差があるかないかを調べたいのですが、良い統計の方法はあるでしょうか。
自分が思いついたこととしては、これ以外にもいくつかの評価関数を用いてそれらについてt検定を行うということを考えたのですが、この結果に差があった場合、精度に差があると判断しても良いでしょうか?
これ以外にも二つのモデルの精度について比較する方法があれば教えていただきたいです、

　よろしくお願いします、

行動規範の内容に同意します

回答2件

解決済みですが、コメントします。
t検定は比較対象群が正規分布に従っていることが前提になります。よってF1_scoreが正規分布に従っているという確証がないのであればt検定以外の方法を使ったほうが正しい結果が得られると思うべきでしょう。ただ、これは教科書的な見解で、割り切ってt検定を使って構わないと思います。(絶対に間違った結果になるわけではないので)

ちなみに、私はt検定を使わない可能性が高いです。最大の理由はf1値は0以上1以下という制限があるので、平均と分散の組み合わせによってはこの範囲外を取る可能性がそこそこある確率分布になり、実態に合わないためです。

代わりにモンテカルロシミュレーションを活用した評価をします。f1値にこだわるのであれば、各学習器のアウトプットである混合行列を多項分布とみなして確率分布の学習をさせた後、乱数生成->f1値計算->f1値の差違計算というプロセスを1万回くらい繰り返します。これによって、ふたつの学習器のf1値の差違の分布が得られるので、任意の方法で評価すればいいことになります。

投稿2019/05/07 15:41

R.Shigemori

総合スコア3378

ベストアンサー

検定に使う評価指標をF1値のマクロ平均にすると決めたのであれば、使う評価指標はそれだけです（その選択が妥当かどうかはご自身でよく検討してください）。

検定は対応のないウェルチのt検定がもっとも一般的、かつ無難です。

交差検証とかを回していると思うので、データのランダムな分割とか、モデルのrandom_stateなどをあれこれ変えながら（再現性のために記録すること）、それぞれのモデルで「たくさん」回します。

「たくさん」は見積もる方法があるので、「t検定サンプルサイズ」とかで検索しておおよその目安をつけておいてください。

最終的に2*「たくさん」の評価指標が得られたら、あとはウェルチのt検定で2群間の平均に差があるかどうかを検定してください。

投稿2019/05/06 12:58

編集2019/05/06 13:10

hayataka2049

総合スコア30939

makioo

2019/05/06 14:19

なるほど、サンプルを分割すればいいんですね。ありがとうございます。

akak1102

2021/10/28 21:46

サンプルの独立性を仮定できないので、ある種のt-検定が誤った結果を与える可能性があることが知られています。こちらの記事がおすすめです。 https://machinelearningmastery.com/statistical-significance-tests-for-comparing-machine-learning-algorithms/

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問