回答編集履歴

一部修正

2021/02/04 22:44

投稿

スコア3266

answer CHANGED Viewed

@@ -10,4 +10,4 @@
 補足追記です。
 最終的にどのような問題を推論したいのか、にあわせた学習データの準備・モデル構築が必要です。
-極端には、100万枚のあらゆる画像から、ウッチャン1枚・ナンチャン1枚・その他99万9998枚を識別したい、という問題設定が考えられます。その場合、それにあわせた学習データとして数100万枚〜数1000万枚を用意する必要があります。また評価関数にも注意する必要があります。なぜなら、単純にcross entropyやmean squared errorを評価関数にしてしまうと、「必ずその他を予測する」という「自明な」モデルが非常に高い評価になり、学習されてしまうからです。
+極端には、100万枚のあらゆる画像から、ウッチャン1枚・ナンチャン1枚・その他99万9998枚を識別したい、という問題設定が考えられます。その場合、それにあわせた学習データとして単純には数100万枚〜数1000万枚を用意する必要があります（データ拡張とか、やりようはありますが）。また評価関数にも注意する必要があります。なぜなら、単純にcross entropyやmean squared errorを評価関数にしてしまうと、「必ずその他を予測する」という「自明な」モデルが非常に高い評価になり、学習されてしまうからです。

誤字の修正

2021/02/04 22:44

投稿

スコア3266

answer CHANGED Viewed

@@ -10,4 +10,4 @@
 補足追記です。
 最終的にどのような問題を推論したいのか、にあわせた学習データの準備・モデル構築が必要です。
-極端には、100万枚のあらゆる画像から、ウッチャン1枚・ナンチャン1枚・その他99万9998枚を識別したい、という問題設定が考えられます。その場合、それにあわせた学習データ数100万枚を用意する必要があります。また評価関数にも注意する必要があります。なぜなら、単純にcross entropyやmean squared errorを評価関数にしてしまうと、「必ずその他を予測する」という「自明な」モデルが非常に高い評価になり、学習されてしまうからです。
+極端には、100万枚のあらゆる画像から、ウッチャン1枚・ナンチャン1枚・その他99万9998枚を識別したい、という問題設定が考えられます。その場合、それにあわせた学習データとして数100万枚〜数1000万枚を用意する必要があります。また評価関数にも注意する必要があります。なぜなら、単純にcross entropyやmean squared errorを評価関数にしてしまうと、「必ずその他を予測する」という「自明な」モデルが非常に高い評価になり、学習されてしまうからです。

補足追記

2021/02/04 22:42

投稿

スコア3266

answer CHANGED Viewed

@@ -5,4 +5,9 @@
 - 正解ラベルとしてウッチャン画像にはA、ナンチャン画像にはB、その他の画像にはCを付与する
 - 各クラスの画像をなるべく多く学習させる
-なお、学習データ・テストデータともに、各クラスでの数の大きな偏りが無いことが望ましいです。
+なお、学習データ・テストデータともに、各クラスでの数の大きな偏りが無いことが望ましいです。
+補足追記です。
+最終的にどのような問題を推論したいのか、にあわせた学習データの準備・モデル構築が必要です。
+極端には、100万枚のあらゆる画像から、ウッチャン1枚・ナンチャン1枚・その他99万9998枚を識別したい、という問題設定が考えられます。その場合、それにあわせた学習データ数100万枚を用意する必要があります。また評価関数にも注意する必要があります。なぜなら、単純にcross entropyやmean squared errorを評価関数にしてしまうと、「必ずその他を予測する」という「自明な」モデルが非常に高い評価になり、学習されてしまうからです。