CNN 位置の違いで画像を分類することは可能か？

Question

CNNにおいて、同じ物体を位置の違い（左右等）で分類することは理論上可能なのでしょうか？
私の見解としては不可能だと考えております。
これはどの程度の位置を分類するかにもよるとは思いますが、位置に依存しないCNNにおいて位置による分類ができるとは思えません。

しかし、実際に簡単なモデルで試してみた結果、収束し、分類できてしまいました。
もっと複雑なケースで試してみようとは思っています。
理論上、位置による分類は可能なのでしょうか？


![左](6a62a4213a38034d199d4b1dc24a42a0.jpeg)
Label : 左
![右](310480ac3ecb74d4fe6635a2b9ca2e89.jpeg)
Label : 右

モデル : VGG16
手法 : fine-tuning
画像処理 : ノイズ付与

![イメージ説明](3cdb3e5e2be698be50d5e7d542227004.png)


# 追記

学習済みモデルを使ってVGG16の最後のPooling層後の特徴マップを可視化してみました。

![イメージ説明](83de4aea89a8f0ea90683399a81c0dd9.jpeg)
![イメージ説明](9497c075040404fd5e796391cd487189.png)
![イメージ説明](2a8820ad29908adc9648c1cd623d33d3.png)
![イメージ説明](9d8ca8bf3efd7d85044f356e06b01ffd.png)
![イメージ説明](f54a22cc734fbf58f0b6ce005d74025b.png)
![イメージ説明](fb99e3519bd923f5b8a2579a3e8642ba.png)

・特徴マップには様々な特徴があり、位置情報を掴めていないように見えるが、どの特徴を使えば
分類出来るかを学習することで位置の特徴として捉えている。
・７×７から１×１に畳み込んでないのを考えると位置情報はある程度残っていること。
・しかし、２２４×２２４の画像を７×７の３２まで圧縮しているため位置情報は1/7程度だと推測されること。

が分かりました。
回答していただいたみなさん有り難うございました！

Accepted Answer

[http://mp7.watson.ibm.com/ICCV2015/slides/iccv2015_tutorial_convolutional_feature_maps_kaiminghe.pdf](http://mp7.watson.ibm.com/ICCV2015/slides/iccv2015_tutorial_convolutional_feature_maps_kaiminghe.pdf)
Faster R-CNN の資料です。
10ページくらいから「特徴マップには特徴と位置が出る」と説明・実証されています。
畳み込み層では、位置は残ります。畳み込みのフィルターには位置情報はありませんが、畳み込み演算の結果は位置が残ります。残らないならフィルター足り得ません。
分類するために1次元テンソルに変形しますが、これもある意味、位置が残っています。シャッフルするわけではないので、座標(0,0)から、順番に並んでいます。
ここから、「右にあるバット」と「左にあるバット」に分けたのですから、当然そうわけられる様に係数が調整されます。

Answer

順伝播に関しては追うのは難しくないので、実際の画像を入れたときの中間層出力を見てみれば納得感のようなものが得られると思います。やり方はググれば日本語で出てくるようです(良い時代になった)。

投稿2019/01/18 10:54

hayataka2049

総合スコア30939

Answer

物体検出でバウンディングボックス（矩形）を出力できるのですから、一般論として位置による分類が**できないなんてありえない**でしょう。
バウンディングボックスの出力の後ろに1層付け加えれば左右を識別可能になるだろう、ということは容易に想像できるはずです。

物体検出として設計されていないVGG16のネットワークで十分に学習可能かどうか? はまた別の話ですが、質問者さんが「できることを確認した」という解釈になると思います。

Answer

> 位置に依存しないCNNにおいて位置による分類ができるとは思えません。

位置に依存しないというのはどこで目にした情報でしょうか？

プーリングを入れてる場合、位置情報を荒くする効果がありますが、CNN は局所結合のニューラルネットワークなので、位置も特徴として抽出されます。
そうでなければ、物体検出などのタスクはできません。

追記

関連した質問