DNNで画像の距離のような値を学習できます？

こんにちは
例えば、最初に多量の似ている画像を標準画像として入力し、0出力するようにDNNを訓練してから、
標準と内容的に差がある画像を入力し、標準画像との距離値(注)を出力としてさらにDNNを訓練します。

これで、訓練済みのDNNがTEST段階において、任意の入力画像と標準画像との距離値を出力する事は可能でしょうか。

★ もしそのような事を可能にするための条件があれば、その条件を教えてださいませ。

注：画像同士間の距離計算方法は当然DNNが分かりません。

mkgrei

2018/03/26 09:40

オーバーフローしなければ何かしらの値が出てくることは間違いないのですが、例えばMNISTの場合どのようなことを期待していますか？

leilei

2018/03/26 11:41 編集

早速お返答ありがとうございます。「何かしらの値が出てくることは間違いないのですが」ーーーそれはどんなNNもそうでしょう(訓練しなくても)。　基本は特定ジャンルの画像と関係なく、出力値は某画像からの距離値にしたいのだけです。要はラベル値の決め方を学習できるかどうかですね。

mkgrei

2018/03/26 11:47

まさにおっしゃる通りで、値が出てきて、それを距離として見れるのかという質問ではないでしょうか？厳密な意味での距離の定義を満たすはずがないので、どのような「距離」を想定していらっしゃるのか、というのが伺いたいことでした。あまりピンとことなかったので簡単な例があると助かります。

leilei

2018/03/26 12:03

mkgrei様お世話になっております。基本は平方差のようなものーーー基本は画素同士の画素値の差のサムのような感じでいいと思います。

leilei

2018/03/27 00:47

例えば、最初に多量の似ている画像を標準画像として入力し、0出力するようにDNNを訓練してから、

行動規範の内容に同意します

回答3件

フォーマルに表現するとすると、既知の距離関数Dがあるとして、f(x)=D(standard image, x)をDNNに近似させる問題ということになります。

想像される課題点は

相当variousな学習データを入れてあげないと質の良い近似は難しいかもしれない。万単位で画像が必要
既知の距離関数Dが計算できるのに、敢えてDNNでやっても計算負荷や精度の面にメリットが少ないのではないか

Dが既知ではなく、たとえば人間が「なんとなくこれくらい似ている」「なんとなくこれくらい似ていない」と判断した数字のデータだけある、というシチュエーションなら機械学習を使うメリットが出てくる可能性はあります。万単位のデータを用意するのは大変ですが・・・（それでも5秒に1枚タグ付けして1万枚で14人時弱か。意外と現実的？）

投稿2018/03/26 12:32

hayataka2049

総合スコア30933

leilei

2018/03/26 15:02

hayataka2049様素晴らしい解説ありがとうござます。＞•相当variousな学習データを入れてあげないと質の良い近似は難しいかもしれない。万単位で画像が必要そうですか。自分はもっと学習データがあっても可笑しくないような感覚を持っています。画像間の『距離』とは実に多様です。大きな類別で言えば、純粋な画素値の差と画像内容の「意味」的な差２大種類があるかと思います。具体な『距離』計算法をDNNに教えないで、DNNが自分でその『距離』計算法を学習できれば、すごいなと思います。実用的かどうかというより、DNNの学習能力を知りたいのです。

hayataka2049

2018/03/26 15:54

Dは未知（ただし教師データあり）なのか、Dは未知で教師データもないのかでだいぶ問題設定が変わってきますね。少しごっちゃになってるのでは？前者の場合、回答に書いた人間のなんとなく判断した数字を近似させる、といったタスクが対応します。これは基本的に回帰問題なので、結果の良し悪しや、どの程度の学習データ量を入れればvariousなデータに対応できるようになるかは別として、原理的にはとにかく解けます。後者はオートエンコーダーのようなものを想定することになります。入力がただの画像データだと、どの程度「意味」のようなものが学習できるかは、率直に言って疑問です。

leilei

2018/03/27 00:50

hayataka2049様ありがとございます。【例えば、最初に多量の似ている画像を標準画像として入力し、0出力するようにDNNを訓練してから、標準と内容的に差がある画像を入力し、標準画像との距離値(注)を出力としてさらにDNNを訓練します。】このような場合はどの場合でしょうか？(前者？)

hayataka2049

2018/03/27 02:49

一応前者ということになります。とにかく画像のデータセットと標準画像との距離値は既知の情報として与えられている、という条件でしたら（逆にそれ以外の情報は一切なくて良い）。

行動規範の内容に同意します

下記論文で使われているSiamese networkのような技術のことでしょうか。
この論文ではマンハッタン距離を計算して画像同士の差を学習しているようです。
顔認証技術: DeepFace と Pyramid CNN
DeepFace: Closing the Gap to Human-Level Performance in Face Verification

投稿2018/03/26 12:13

編集2018/03/26 12:15