ウッチャンナンチャンの顔以外を読み込んだ時にその他と出力したい

画像認識についての質問です
AIY-VISION-KITというAIの学習ができるキットで
ウッチャン　と　ナンチャンの顔を識別する、というデータセットを作りましたが
ウッチャンナンチャンの顔以外の顔やモノを読み込んだときにもウッチャンかナンチャンの顔だと出力されてしまいます。

そこでウッチャンナンチャンの顔以外の顔やモノを読み込んだときは「その他」と出力したいのですが、一般的な物体識別ソフトではどう対処しているのでしょうか？

ウッチャンナンチャンの顔以外の顔やモノを大量に学習させればよいのですか？

抽象的な質問ですいません

plasticgrammer

2021/02/02 07:46

AIY-VISION-KITがどのようなものかわかっていませんが、クラスを分類するのみなのでしょうか？確率のようなものはわかったりしませんか？浅い知識で一般的かどうかはわかりませんが、確率のしきい値を決めて判別するのではと思います。確度がいずれも90％未満ならその他とするとか。

gat_buster_duel

2021/02/04 01:48

なるほど！しきい値以下の確率だったら違う。と割り切るんですね VISION-KITでも取り込んだ画像の確率とクラス名が出力されますたしかに、この方法なら簡単に実装できそうです。ありがとうございます

行動規範の内容に同意します

回答1件

ベストアンサー

「その他」を識別する、と考えると悩ましく思ってしまいますが、分類問題であることに立ち返るとよいです。
すなわち、以下のように考えます。

画像を3つのクラスA、B、Cに分類する
正解ラベルとしてウッチャン画像にはA、ナンチャン画像にはB、その他の画像にはCを付与する
各クラスの画像をなるべく多く学習させる

なお、学習データ・テストデータともに、各クラスでの数の大きな偏りが無いことが望ましいです。

補足追記です。

最終的にどのような問題を推論したいのか、にあわせた学習データの準備・モデル構築が必要です。
極端には、100万枚のあらゆる画像から、ウッチャン1枚・ナンチャン1枚・その他99万9998枚を識別したい、という問題設定が考えられます。その場合、それにあわせた学習データとして単純には数100万枚〜数1000万枚を用意する必要があります（データ拡張とか、やりようはありますが）。また評価関数にも注意する必要があります。なぜなら、単純にcross entropyやmean squared errorを評価関数にしてしまうと、「必ずその他を予測する」という「自明な」モデルが非常に高い評価になり、学習されてしまうからです。

投稿2021/02/02 11:19

編集2021/02/04 22:44

toast-uz

総合スコア3266

gat_buster_duel

2021/02/04 01:38

回答ありがとうございます。やはりその他クラス(C)には、ウッチャンナンチャンの顔以外の画像を用意する必要があるということでしょうか？間違っていたらすいません

toast-uz

2021/02/04 03:54 編集

まず最終的に推論したい状況を決めてください。乗り物とウッチャンナンチャンを区別したいのか、犬猫含む画像からウッチャンナンチャンを区別したいのか、お笑い芸人名鑑？からウッチャンナンチャンを区別したのか、そういった推論したい状況を明確に決めて、それを代表するような学習データを用意し、その中でウッチャンとナンチャンとその他のラベルを当てはめて学習します。推論したい状況が変わったら、学習データの選定からやりなおして、学習をしなおす必要があります。あらゆる写真の中からウッチャンナンチャンを区別したい、という問題設定だと、何十万もの写真を学習させて、といったことが必要です。

行動規範の内容に同意します