現在、ランダムフォレストとxgboostを用いて多値分類を行っています。それぞれの評価関数としてはf1_score(avarage = 'micro')を用いています。
ここで、この二つのモデルの精度に差があるかないかを調べたいのですが、良い統計の方法はあるでしょうか。
自分が思いついたこととしては、これ以外にもいくつかの評価関数を用いてそれらについてt検定を行うということを考えたのですが、この結果に差があった場合、精度に差があると判断しても良いでしょうか?
これ以外にも二つのモデルの精度について比較する方法があれば教えていただきたいです、
よろしくお願いします、
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。