質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Neural Network Console

Neural Network Consoleは、ソニー社が開発したディープラーニング・ツール。ニューラルネットワークを視覚的に設計することが可能で、学習や評価をスムーズに実現できます。また、ニューラルネットワークを自動的に構築する機能も備わっています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

6539閲覧

k-分割交差検証後に使用するモデルについて教えてください

nh1r0k1

総合スコア14

Neural Network Console

Neural Network Consoleは、ソニー社が開発したディープラーニング・ツール。ニューラルネットワークを視覚的に設計することが可能で、学習や評価をスムーズに実現できます。また、ニューラルネットワークを自動的に構築する機能も備わっています。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

2クリップ

投稿2020/06/17 00:09

編集2020/06/17 00:51

お世話になっております。
k-分割交差検証後に使用するモデルについて教えてください

①検証が完了した時に使用するモデルはどれなのか

k-分割交差検証を行い、いずれのモデルでもテストデータで十分な精度のモデルが作成できた場合、
運用時に使用するモデルはどれでしょうか。

・分割した中で一番性能の良いモデルを使う
・分割をしないで全データを学習してそのモデルを使う
どちらが良いのでしょうか。

②テストデータでの精度は良くないが、訓練データでは良い場合

k-分割交差検証を行った結果、以下の状況となったとします。

・テストデータでは精度が良くない
・訓練データの推論はいずれも十分な精度
・全データを学習し、学習した訓練データを推論しても十分な精度

この状況では、やはりテストデータでは要件を満たしたモデルではないため、運用時では使うべきではないでしょうか。
それとも学習をすれば(訓練データは)正しく推論できているため、全データを学習したモデルを使用しても良いと言えるのでしょうか。

【補足】学習グラフ

Learning Curve

学習過程を見ると過学習(※)はおきていないようですが、epochを増やしても精度は頭打ちです。
(※過学習は訓練誤差が収束しても汎化誤差が悪化した時のことを指すと認識しています。
このグラフの場合は汎化誤差は悪化してはいないので、過学習は起きていないと思っています。)
青線は訓練データに対するロスの値
赤線が訓練データに対する分類誤差
赤点線がテストデータに対する分類誤差
になります。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

①について

検証結果次第では無いでしょうか。
最近では最適なモデルを選択するよりも、それらのモデルの平均(回帰)か多数決(判別)として使われることの方が多いかと思います。この方が精度がよいので。

②について

この状況では、やはりテストデータでは要件を満たしたモデルではないため、運用時では使うべきではないでしょうか。
それとも学習をすれば(訓練データは)正しく推論できているため、全データを学習したモデルを使用しても良いと言えるのでしょうか。

これはあなたが、何の目的でモデルを使用するかに寄ると思います。新しい実データで一定の精度を得たいというのであればこのままでは危険ではないですか。学習データ以外では精度を満たせていないので。

過学習は一般には
訓練データに対して学習されているが、未知データ(テストデータ)に対しては適合できていない、汎化できていない状態
のことです。それを見る指標の一つとして示していただいたグラフもありますが、これはクロスバリデーションの範囲での話ですよね。
テストデータで精度が落ちてしまうのであれば、学習データを過度に学習している=過学習の可能性が高いです

学習データとテストデータで傾向が変わってないでしょうか。
目的変数、説明変数それぞれについて学習データとテストデータでヒストグラムを重ね合わせるなどして分布を
比べて見てください。
学習データとテストデータの傾向が変わってしまっていれば、いくらクロスバリデーションをしても厳しいですね。
その傾向の原因となりそうなものを説明変数に加えるとよろしいかと思います。

クロスバリデーションや学習データとテストデータの傾向の違い等については下記書籍に詳しい解説があります。

投稿2020/06/21 05:01

aokikenichi

総合スコア2240

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nh1r0k1

2020/06/23 05:19

回答いただきありがとうございます。 ①について なるほどです! どれかではなく全てを使った総合的に判断するのですね。 ②について 良品画像と不良画像の2値分類のモデルを作っているのですが、 実際に4分割のクロスバリデーションで評価をしてみると、 どれも訓練データはとても良い精度で、テストデータは悪いので過学習が起きていますね。 画像分類のため説明編すを追加することは難しいですが、訓練・テストデータの中身を見直してみます。 書籍の紹介もいただきありがとうございます。 解説を見て勉強したいと思います。
aokikenichi

2020/06/24 00:07

ご参考になったのであれば幸いです また何かございましたらよろしくお願い致します。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問