質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

3558閲覧

交差検証のテストデータの扱いについて

ToshiyukiAraki

総合スコア18

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2020/09/30 02:17

編集2020/09/30 02:21

機械学習でおなじみの交差検証(クロスバリデーション)についてです。
初心者なので、見当違いなことを聞いてしまっているかもしれません。

①事前にデータを分割するべきではないのか?
基本的に機械学習では、データをトレーニングデータとテストデータに分割するものだと考えているのですが、本やWebサイトに描かれている交差検証の解説では、その分割が行われていません。これは、内部で勝手に分割してくれているからだと考えているのですが、厳密にテストデータと分けて学習させるべきではないのでしょうか?

②分割した際のテストデータをどのように扱うのか?
また、交差検証では、平均などを用いて最終的なスコアなどを出すかと思いますが、モデルに直接fitさせているわけではないので、もし、交差検証を行う前にトレーニングデータとテストデータに分割させた場合、どのようにテストデータにモデルを適応させれば良いのでしょうか。

「トレーニングデータに対して交差検証→テストデータに適応」 という考え方がそもそも間違っているのでしょうか?

すごくわかりにくい書き方になってしまいました。
今、機械学習での予測モデルを構築していて、新規で入ってくるデータに対しても、そのモデルを用いて予測をしたいと考えています。学習サンプル数が非常に少ないので交差検証を試したいのですが、どのように適用させればいいかで悩んでいるという背景です。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

学習 検証 テスト
あたりで検索してみてください。

検証とテストを混同なさっているようです。
下記の説明などが分かり易いかと
実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング

「テストデータで検証する」などという言い方もしてしまうので紛らわしいですが

元々は
・データを学習データとテストデータに分ける
・学習データで学習してモデルを作成
・モデルにテストデータを通して試す

ですが、過学習になりがちなので
・データを学習データとテストデータに分ける ←ここまでは同じ
・交差検証にて学習データを1回の検証の学習データ’と検証データ’に分け、で学習データ’にて分ける
(学習する関数に機能が含まれている場合と、事前に交差検証用のデータ分割をする場合があり)
・学習データ’にて学習しモデルを作成、それを検証データ’を通して試す(必要に応じ学習データ’と検証データ’を組み換えや入れ替えて何回か繰り返す)
・ベストのモデルが出てくる
・ベストのモデルにテストデータを通して試す

みたいな感じです

①事前にデータを分割するべきではないのか?

その通りです。事前に分けます。

②分割した際のテストデータをどのように扱うのか?

ベストのモデルに入力するという感じですね

比較的少なめのデータで機械学習する時は交差検証 (Cross Validation) をするのです
の記事なども参考になるかなと思います。

投稿2020/09/30 03:47

aokikenichi

総合スコア2240

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ToshiyukiAraki

2020/09/30 03:57

なんとなく理解していたのですが、文章にするのが下手すぎました。もう少ししっかりと勉強します。 あくまでも、k分割交差検証は、各Foldによって作成されたモデルの検証を行っているにすぎないってことなんですね!スコアの平均を見る説明があちこちで散見されるので、混乱していました。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問