質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

PyTorch

PyTorchは、オープンソースのPython向けの機械学習ライブラリ。Facebookの人工知能研究グループが開発を主導しています。強力なGPUサポートを備えたテンソル計算、テープベースの自動微分による柔軟なニューラルネットワークの記述が可能です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

1038閲覧

セマンティックセグメンテーションにおけるk-分割交差検証の方法

osuzu

総合スコア16

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

PyTorch

PyTorchは、オープンソースのPython向けの機械学習ライブラリ。Facebookの人工知能研究グループが開発を主導しています。強力なGPUサポートを備えたテンソル計算、テープベースの自動微分による柔軟なニューラルネットワークの記述が可能です。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2021/11/09 13:39

編集2021/11/09 13:40

知りたいこと

1000枚程度の画像に対して3クラスのセマンティックセグメンテーションを行いたいです.
k-分割交差検証においてk=5とした場合、"全体のデータ"の1/5をテストデータ、残りの4/5を訓練データとして評価を行うと思いますが,
この"全体のデータ"とは1000枚の事を意味するでしょうか?つまり,k-分割交差検証を行うには1000枚全てに対してアノテーションを付けないといけないのでしょうか.
1000枚のアノテーションはあまりにも大変です.1000枚のうち,例えば100枚を選定して,このうち1/5をテストデータ(20枚)、残りの4/5(80枚)を訓練データとして評価,5つのモデルのうち最も精度の高いモデルを採用する,ということでもk-分割交差検証をしているといえるのでしょうか.

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

1000枚のアノテーションはあまりにも大変です.1000枚のうち,例えば100枚を選定して,このうち1/5をテストデータ(20枚)、残りの4/5(80枚)を訓練データとして評価,5つのモデルのうち最も精度の高いモデルを採用する,ということでもk-分割交差検証をしているといえるのでしょうか.

言えますがその場合は、”100枚程度の画像に対して3クラスのセマンティックセグメンテーションを行いたいです.” という文章に変わります。

投稿2021/11/18 06:35

HRCo4

総合スコア140

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

osuzu

2021/11/18 07:43

ご回答いただきありがとうございます。 100枚を訓練・テストデータとしてモデルを作成し、残りの900枚を作成したモデルを使って予測するとき、結果を見て精度が許容できるならば、使用してもよいのでしょうか。またこのような一部分のみを訓練・テストとする手順は一般的でしょうか?
HRCo4

2021/11/18 08:24

100枚にしかアノテーションをしていませんので、残りの900枚に対して推論はできますが、正解データがないので精度の確認は行えません。なので、見た目だけで判断をする必要がありますが、それで許容とするのであれば問題ないかと。 用意したデータの一部のみを用いることについては今のままだと2通りの解釈があります。 ①一部のみ "アノテーションを行う" という場合では一般的であり、 ②一部のみ "train, validation, test データとして扱う" という場合では一般出来ではないです。 ①については、そもそもディープラーニングにおいてアノテーションが一番コストがかかる部分です。 そのため、極力コストを抑えるために取得したデータから教師用データを作成するために厳選作業が入ります。 ②については、1000枚既にアノテーション済みという前提になりますが、データ量を削減して学習するメリットがあまり存在しないためです。少量のデータでも削減前のデータ量と同等の精度が出る手法の確立などといった目的であれば別ですが、使えるものは使えるだけ使うのが一般的です。
osuzu

2021/11/19 03:28

ご丁寧にありがとうございます。今回は①のケースと考えています。よく理解できました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問