CNNで異なるサイズのobject認識問題

前提

CNNで物を認識する場合対象のサイズに依存することは分かりました。
ところがTEST画像の中に認識してほしいobjectのサイズは必ずしもCNNをトレーニングするに使われる学習画像中の対するobjectのサイズと一致する訳ではない。
そのために、●「複数のサイズの異なるobject画像をCNNに学習させればOK」という説がありました。

質問の内容

質問１
CNNの入力に画像サイズまちまちで可能でしょうか。
まちまちで不可能であれば、どうやって異なるサイズのobject画像を学習させるのでしょうか。

質問２
仮に、異なるサイズのobject画像をCNNに入力できるとします。
そうしたら、同じobjectであってもobjectの画像サイズが違えれば、CNN自身が画像のscale不変特徴量を抽出できないので、objectの特徴が全然違う事になります。
つまり、多量の異なる特徴量に同じラベルを持つ事になります。
それに多量のラベルが存在します。
このような状況にNNが混乱しないでしょうか-----どうして耐えられるのでしょうか。

行動規範の内容に同意します

回答1件

ベストアンサー

予め画像を一定の大きさにリサイズして学習するか、poolingするときにリサイズするのはどうでしょうか？

https://arxiv.org/abs/1406.4729

投稿2018/03/17 02:29

EvanYou

総合スコア21

IS.SEKI

2018/03/17 04:00 編集

アドバイスとリンク有難うございます。 https://arxiv.org/abs/1406.4729 面白しろそうで、じっくり読ませていただきます。ただ、 > 予め画像を一定の大きさにリサイズして学習するかについてちょっと理解できません：例えばサイズA１の人間の頭部画像とサイズA2、A3の人間の頭部画像があるとします。 A１とA3の画像サイズをA2の画像サイズにリサイズすれば、結局頭部画像は皆A2サイズになり、 objectサイズの多様化にならないですね。私は誤解していますか？

mkgrei

2018/03/17 06:22

前処理で部分を切り出すか、拡大・縮小しています。全体の入力ピクセル数は固定していますが、画像がそれをどのように占めるのかという自由度があります。

IS.SEKI

2018/03/19 02:15

mkgrei 様　回答ありがとうございます。 > 全体の入力ピクセル数は固定していますが、画像がそれをどのように占めるのかという自由度があります。頭悪くて、以下の事でしょうか。確認させてください。入力画像物理的なサイズ同じですが、中の対象物自身の画像の大きさを自由に変動させるという事ですね？　　　そうすると、背景の領域や内容も変動的になりますね。 NN自身は何が前景、何が背景知らないので、これで対象物の特徴を取得できるのでしょうか。逆に言えば、背景の特徴をトレーニングする事になるのではないでしょうか。

mkgrei

2018/03/19 02:40

「背景」が何かという問題にもなります。分類しようとするものがいつも何かの背景と一緒に写っているのであれば、それはもはや背景とは呼び難いです。背景の特徴をトレーニングしてしまわないかというのは、サイズを変更しない場合でも起こりうる心配です。それともいま背景と仰られているのは例えば対象物の画像の大きさが入力よりも小さくなった時にその余白を埋めるためのピクセルということでしょうか？さじ加減にもよると思いますが、異なるクラスでも同様な余白を持ちうるので、余白の形を学習してしまった場合精度が著しく低下しそうです。（なので精度が低下するようには学習しないと思います）多少のデータ拡張をすると少しやるとトータル精度が上がります。やりすぎるとトータル精度は今度下がっていきます。お試しになると感覚がつかめると思います。回転角を90度とかにするとトータル精度ががんがん下がります。ここで「トータル精度」とわざわざ書いてあるのは、もとより回転したものについては精度は少し上がるが、もともと回転していないものの精度が下がる、ことを念頭に置いています。これは擬人的に「NNが混乱した」ことになります。

IS.SEKI

2018/03/21 02:49 編集

mkgrei 様非常に具体的なご解説有難う御座いました。

行動規範の内容に同意します