ディープラーニングに詳しい方に質問です。
動画認識、検出について質問があります。
近頃は、画像認識も発展してYoloやSSDといった進化形も登場してきているようですが、
動画の物体検出は、やはり「一度、画像に分解してから」行うものなのでしょうか?
動画を動画のまま学習するみたいなことはないのでしょうか?
いや、動画形式のデータを渡して…ということではなく、
動画ならではの「時間」の概念がなくなってしまうのではないかと思うのです。
ならば、RNNやLSTMに…とも思いましたが、すると、今度は畳み込みがなくなってしまいますよね?
例えば、何台もの停車している車のなか、1台だけがある一定時間だけ動いているという動画を学習して、動く車を検出する。このような検出はどのようにするのでしょうか?やはり画像に分解して畳み込みニューラルネットワークを利用するのでしょうか?
回答よろしくお願いします。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。