ディープラーニングで動画データを学習するには？

ディープラーニングに詳しい方に質問です。

動画認識、検出について質問があります。
近頃は、画像認識も発展してYoloやSSDといった進化形も登場してきているようですが、
動画の物体検出は、やはり「一度、画像に分解してから」行うものなのでしょうか？

動画を動画のまま学習するみたいなことはないのでしょうか？
いや、動画形式のデータを渡して…ということではなく、
動画ならではの「時間」の概念がなくなってしまうのではないかと思うのです。
ならば、RNNやLSTMに…とも思いましたが、すると、今度は畳み込みがなくなってしまいますよね？

例えば、何台もの停車している車のなか、1台だけがある一定時間だけ動いているという動画を学習して、動く車を検出する。このような検出はどのようにするのでしょうか？やはり画像に分解して畳み込みニューラルネットワークを利用するのでしょうか？

回答よろしくお願いします。

行動規範の内容に同意します

回答2件

ベストアンサー

去年が最近かどうかは人によりますが、例えば、

他にも探せば色々出てくるとは思いますよ。

単純にコマごとに車を検出してから連続性と運動方程式から推定することもできます。
車の例だと、車を認識できてしまえば、その後は汎用的なモデルが必要というより、物理の基礎方程式を使った方が精度が出るはずですね。

高速に処理することが目的ならもっと原始的な検出と組み合わせるのではないでしょうか。

時系列性をそもそも重要視する必要があるかどうかというのも問題です。
時間の区間があるということは、サンプルの数が増えるということです。
そうであれば、時間に渡ってアンサンブルするということも考えられます。

ある映像が途中で切り替わっていないかを判定することや、現実にあり得る動画かどうかを判定するのなら時系列性は大事そうです。

現実の動画であるのなら、連続性が保障されるので、その部分を曖昧にせずに仮定としてしまう方がモデルの精度が上がりそうです。

深層学習は得意な部分もありますが、なにもかもに対してよいとは限りません。
たまにネタでFizzbuzzしている人もいますが、練習としてやるのならともかく、if文で組んだ方が精度が高いのは明確です。

モデルを組むには未知なことが問題に含まれていることが必要です。

RNNの強みを再考してみてください。
金融の時系列データは不確定性が高く、基礎方程式を立てるのが困難です。
言語翻訳は時系列が重要ではなく、順序に注目しています。
異常検出は想定外の変化を見ようとしています。

投稿2018/05/29 23:15

総合スコア8560

そういう研究が行われているかどうかはわかりませんが、
入力値のチャンネル数を増やせば、疑似的に時間の概念を作れるのでは思いました。
例えば、500500の動画を学習させたいとし
読み込んだ直近100枚分画像を覚えておきたいとすると
500500*100を入力値として与えてやるとよさそうです。

実際に、alpha go やalpha syogiはコウや千日手のルールを覚えさせるために同じような手法を取っています。
(現在の局面 + 直近の局面を入力値として与えている。)

今回の問題も現在の状況と過去の状況がわかればいいので、同じ手法を取れば、動いてる車を検出する事も出来そうですが、精度を求めてチャンネル数を増やすと、リアルタイムに耐えられる速度を保てるかどうかが怪しいですね。

投稿2018/05/29 15:54

総合スコア185

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問