セマンティックセグメンテーションにおけるk-分割交差検証の方法

知りたいこと

1000枚程度の画像に対して3クラスのセマンティックセグメンテーションを行いたいです．
k-分割交差検証においてk=5とした場合、"全体のデータ"の1/5をテストデータ、残りの4/5を訓練データとして評価を行うと思いますが，
この"全体のデータ"とは1000枚の事を意味するでしょうか？つまり，k-分割交差検証を行うには1000枚全てに対してアノテーションを付けないといけないのでしょうか．
1000枚のアノテーションはあまりにも大変です．1000枚のうち，例えば100枚を選定して，このうち1/5をテストデータ(20枚)、残りの4/5(80枚)を訓練データとして評価，5つのモデルのうち最も精度の高いモデルを採用する，ということでもk-分割交差検証をしているといえるのでしょうか．

行動規範の内容に同意します

回答1件

ベストアンサー

1000枚のアノテーションはあまりにも大変です．1000枚のうち，例えば100枚を選定して，このうち1/5をテストデータ(20枚)、残りの4/5(80枚)を訓練データとして評価，5つのモデルのうち最も精度の高いモデルを採用する，ということでもk-分割交差検証をしているといえるのでしょうか．

言えますがその場合は、”100枚程度の画像に対して3クラスのセマンティックセグメンテーションを行いたいです．” という文章に変わります。

投稿2021/11/18 06:35

HRCo4

総合スコア140

kurage

2021/11/18 07:43

ご回答いただきありがとうございます。 100枚を訓練・テストデータとしてモデルを作成し、残りの900枚を作成したモデルを使って予測するとき、結果を見て精度が許容できるならば、使用してもよいのでしょうか。またこのような一部分のみを訓練・テストとする手順は一般的でしょうか？

HRCo4

2021/11/18 08:24

100枚にしかアノテーションをしていませんので、残りの900枚に対して推論はできますが、正解データがないので精度の確認は行えません。なので、見た目だけで判断をする必要がありますが、それで許容とするのであれば問題ないかと。用意したデータの一部のみを用いることについては今のままだと2通りの解釈があります。 ①一部のみ "アノテーションを行う" という場合では一般的であり、 ②一部のみ "train, validation, test データとして扱う" という場合では一般出来ではないです。 ①については、そもそもディープラーニングにおいてアノテーションが一番コストがかかる部分です。そのため、極力コストを抑えるために取得したデータから教師用データを作成するために厳選作業が入ります。 ②については、1000枚既にアノテーション済みという前提になりますが、データ量を削減して学習するメリットがあまり存在しないためです。少量のデータでも削減前のデータ量と同等の精度が出る手法の確立などといった目的であれば別ですが、使えるものは使えるだけ使うのが一般的です。

kurage

2021/11/19 03:28

ご丁寧にありがとうございます。今回は①のケースと考えています。よく理解できました。

行動規範の内容に同意します