質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.52%

モデルの性能評価においての、データの分割とチューニング・交差検証の手順

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 2
  • VIEW 203

oichiki

score 1

前提・実現したいこと

あるデータに対してSVM、RandomForestを用いて2値分類を行い、モデルの分類性能を評価しようとしています。
そこでパラメータチューニングを行ってから分類性能を評価しようと思っているのですが、正しい手順がわかりません。
現在実行しようとしている手順は以下になります。

手順

学習データ数:1000
分類:2値分類
手法:SVM, RandomForest

1.データ全体を学習用(700)、評価用(300)に分割
2.学習データ全体(700)でグリッドサーチをk分割交差検証によって行う(モデルの精度評価はAUC)
3.手順2で最もAUCの高かった際のパラメータで、学習データ全体(700)を学習
4.手順3で構築したモデルで評価用データを分類し評価指標(precision, recall, f1-score, auc)を算出

上記手順で算出された評価指標値をモデルの性能として扱おうとしているのですが、このアプローチが間違っている気がしてなりません。
初歩的な質問で申し訳ないのですが、上記手順が間違いでしたらモデルの評価における一般的な手順をお教えいただけないでしょうか。

追記
懸念点1:いくつか論文では交差検証における評価指標の平均値を算出してモデルの評価を行っている
疑問点1:この場合はどこでパラメータチューニングをおこなっているのか

懸念点2:手順1の分割に結果が依存してしまう
疑問点2:手順1~4をまとめて交差検証としてしまうとネストされた交差検証となってしまい、手法の比較しかできないのではないか

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • hayataka2049

    2019/12/13 16:32

    間違っている気がする理由を書いていただかないと有益な助言は得られづらいと思います。

    キャンセル

  • oichiki

    2019/12/13 16:40

    説明不足で申し訳ありません。以下が私の懸念点と疑問点です。

    懸念点1:いくつか論文では交差検証における評価指標の平均値を算出してモデルの評価を行っている
    疑問点1:この場合はどこでパラメータチューニングをおこなっているのか

    懸念点2:手順1の分割に結果が依存してしまう
    疑問点2:手順1~4をまとめて交差検証としてしまうとネストされた交差検証となってしまい、手法の比較しかできないのではないか

    キャンセル

  • hayataka2049

    2019/12/13 16:42

    ここに書くのではなく質問文に追記してください。

    キャンセル

  • この投稿は削除されました

回答 1

checkベストアンサー

0

懸念点1:いくつか論文では交差検証における評価指標の平均値を算出してモデルの評価を行っている
疑問点1:この場合はどこでパラメータチューニングをおこなっているのか

そこまで書いてない論文もあります。チューニングしていない場合もありますし、評価と一緒にやっている場合もあります(後者は駄目と言えば駄目だけど、議論したい問題に関係なければ見過ごされることも多い)。

懸念点2:手順1の分割に結果が依存してしまう

そうですね。でも1000を700:300にランダムに分けるのであれば、さほど気にする必要はないとも言えます(サンプルが多ければそんな滅茶苦茶な偏り方をする可能性は低いので)。

疑問点2:手順1~4をまとめて交差検証としてしまうとネストされた交差検証となってしまい、手法の比較しかできないのではないか

手法の比較ができれば良いのでは? 何を問題視しているのかが見えません。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/12/13 16:54

    ご回答いただきましてありがとうございます。
    この場合手順1の分割に結果が大きく依存してしまうため、汎化性能に対する評価が不足するのではないか考えています。

    キャンセル

  • 2019/12/13 21:55

    分け方を変えて何回かやって平均するという手もありです。そうするとt検定などもできますし。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.52%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る