質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

10426閲覧

CNNで異なるサイズのobject認識問題

IS.SEKI

総合スコア28

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

1クリップ

投稿2018/03/17 01:40

編集2018/03/17 01:45

前提

CNNで物を認識する場合対象のサイズに依存することは分かりました。
ところがTEST画像の中に認識してほしいobjectのサイズは必ずしもCNNをトレーニングするに使われる学習画像中の対するobjectのサイズと一致する訳ではない。
そのために、●「複数のサイズの異なるobject画像をCNNに学習させればOK」という説がありました。

質問の内容

質問1
CNNの入力に画像サイズまちまちで可能でしょうか。
まちまちで不可能であれば、どうやって異なるサイズのobject画像を学習させるのでしょうか。

質問2
仮に、異なるサイズのobject画像をCNNに入力できるとします。
そうしたら、同じobjectであってもobjectの画像サイズが違えれば、CNN自身が画像のscale不変特徴量を抽出できないので、objectの特徴が全然違う事になります。
つまり、多量の異なる特徴量に同じラベルを持つ事になります。
それに多量のラベルが存在します。
このような状況にNNが混乱しないでしょうか-----どうして耐えられるのでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

予め画像を一定の大きさにリサイズして学習するか、poolingするときにリサイズするのはどうでしょうか?

https://arxiv.org/abs/1406.4729

投稿2018/03/17 02:29

EvanYou

総合スコア21

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

IS.SEKI

2018/03/17 04:00 編集

アドバイスとリンク有難うございます。 https://arxiv.org/abs/1406.4729 面白しろそうで、じっくり読ませていただきます。 ただ、 > 予め画像を一定の大きさにリサイズして学習するか についてちょっと理解できません: 例えばサイズA1の人間の頭部画像とサイズA2、A3の人間の頭部画像があるとします。 A1とA3の画像サイズをA2の画像サイズにリサイズ すれば、結局頭部画像は皆A2サイズになり、 objectサイズの多様化にならないですね。 私は誤解していますか?
mkgrei

2018/03/17 06:22

前処理で部分を切り出すか、拡大・縮小しています。全体の入力ピクセル数は固定していますが、画像がそれをどのように占めるのかという自由度があります。
IS.SEKI

2018/03/19 02:15

mkgrei 様 回答ありがとうございます。 > 全体の入力ピクセル数は固定していますが、画像がそれをどのように占めるのかという自由度があります。 頭悪くて、以下の事でしょうか。確認させてください。 入力画像物理的なサイズ同じですが、中の対象物自身の画像の大きさを自由に変動させるという事ですね?   そうすると、背景の領域や内容も変動的になりますね。 NN自身は何が前景、何が背景知らないので、これで対象物の特徴を取得できるのでしょうか。 逆に言えば、背景の特徴をトレーニングする事になるのではないでしょうか。
mkgrei

2018/03/19 02:40

「背景」が何かという問題にもなります。 分類しようとするものがいつも何かの背景と一緒に写っているのであれば、それはもはや背景とは呼び難いです。 背景の特徴をトレーニングしてしまわないかというのは、サイズを変更しない場合でも起こりうる心配です。 それともいま背景と仰られているのは例えば対象物の画像の大きさが入力よりも小さくなった時にその余白を埋めるためのピクセルということでしょうか? さじ加減にもよると思いますが、異なるクラスでも同様な余白を持ちうるので、余白の形を学習してしまった場合精度が著しく低下しそうです。(なので精度が低下するようには学習しないと思います) 多少のデータ拡張をすると少しやるとトータル精度が上がります。 やりすぎるとトータル精度は今度下がっていきます。 お試しになると感覚がつかめると思います。 回転角を90度とかにするとトータル精度ががんがん下がります。 ここで「トータル精度」とわざわざ書いてあるのは、もとより回転したものについては精度は少し上がるが、もともと回転していないものの精度が下がる、ことを念頭に置いています。 これは擬人的に「NNが混乱した」ことになります。
IS.SEKI

2018/03/21 02:49 編集

mkgrei 様 非常に具体的なご解説有難う御座いました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問