回答編集履歴
2
追記
answer
CHANGED
@@ -2,7 +2,7 @@
|
|
2
2
|
|
3
3
|
検定は対応のないウェルチのt検定がもっとも一般的、かつ無難です。
|
4
4
|
|
5
|
-
交差検証とかを回していると思うので、データの分割
|
5
|
+
交差検証とかを回していると思うので、データのランダムな分割とか、モデルのrandom_stateなどをあれこれ変えながら(再現性のために記録すること)、それぞれのモデルで「たくさん」回します。
|
6
6
|
|
7
7
|
「たくさん」は見積もる方法があるので、「t検定 サンプルサイズ」とかで検索しておおよその目安をつけておいてください。
|
8
8
|
|
1
追記
answer
CHANGED
@@ -1,6 +1,6 @@
|
|
1
1
|
検定に使う評価指標をF1値のマクロ平均にすると決めたのであれば、使う評価指標はそれだけです(その選択が妥当かどうかはご自身でよく検討してください)。
|
2
2
|
|
3
|
-
検定は対応のないウェルチのt検定がもっとも
|
3
|
+
検定は対応のないウェルチのt検定がもっとも一般的、かつ無難です。
|
4
4
|
|
5
5
|
交差検証とかを回していると思うので、データの分割の仕方、モデルのrandom_stateなどをあれこれ変えながら(再現性のために記録すること)、それぞれのモデルで「たくさん」回します。
|
6
6
|
|