質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

3984閲覧

ディープラーニングで動画データを学習するには?

退会済みユーザー

退会済みユーザー

総合スコア0

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

2グッド

2クリップ

投稿2018/05/29 14:34

ディープラーニングに詳しい方に質問です。

動画認識、検出について質問があります。
近頃は、画像認識も発展してYoloやSSDといった進化形も登場してきているようですが、
動画の物体検出は、やはり「一度、画像に分解してから」行うものなのでしょうか?

動画を動画のまま学習するみたいなことはないのでしょうか?
いや、動画形式のデータを渡して…ということではなく、
動画ならではの「時間」の概念がなくなってしまうのではないかと思うのです。
ならば、RNNやLSTMに…とも思いましたが、すると、今度は畳み込みがなくなってしまいますよね?

例えば、何台もの停車している車のなか、1台だけがある一定時間だけ動いているという動画を学習して、動く車を検出する。このような検出はどのようにするのでしょうか?やはり画像に分解して畳み込みニューラルネットワークを利用するのでしょうか?

回答よろしくお願いします。

okauchi2👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

去年が最近かどうかは人によりますが、例えば、

https://www.kaggle.com/c/youtube8m/discussion/35063

他にも探せば色々出てくるとは思いますよ。


単純にコマごとに車を検出してから連続性と運動方程式から推定することもできます。
車の例だと、車を認識できてしまえば、その後は汎用的なモデルが必要というより、物理の基礎方程式を使った方が精度が出るはずですね。

高速に処理することが目的ならもっと原始的な検出と組み合わせるのではないでしょうか。


時系列性をそもそも重要視する必要があるかどうかというのも問題です。
時間の区間があるということは、サンプルの数が増えるということです。
そうであれば、時間に渡ってアンサンブルするということも考えられます。

ある映像が途中で切り替わっていないかを判定することや、現実にあり得る動画かどうかを判定するのなら時系列性は大事そうです。

現実の動画であるのなら、連続性が保障されるので、その部分を曖昧にせずに仮定としてしまう方がモデルの精度が上がりそうです。


深層学習は得意な部分もありますが、なにもかもに対してよいとは限りません。
たまにネタでFizzbuzzしている人もいますが、練習としてやるのならともかく、if文で組んだ方が精度が高いのは明確です。

モデルを組むには未知なことが問題に含まれていることが必要です。

RNNの強みを再考してみてください。
金融の時系列データは不確定性が高く、基礎方程式を立てるのが困難です。
言語翻訳は時系列が重要ではなく、順序に注目しています。
異常検出は想定外の変化を見ようとしています。

投稿2018/05/29 23:15

編集2018/05/29 23:18
mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

そういう研究が行われているかどうかはわかりませんが、
入力値のチャンネル数を増やせば、疑似的に時間の概念を作れるのでは思いました。
例えば、500500の動画を学習させたいとし
読み込んだ直近100枚分画像を覚えておきたいとすると
500
500*100を入力値として与えてやるとよさそうです。

実際に、alpha go やalpha syogiはコウや千日手のルールを覚えさせるために同じような手法を取っています。
(現在の局面 + 直近の局面を入力値として与えている。)

今回の問題も現在の状況と過去の状況がわかればいいので、同じ手法を取れば、動いてる車を検出する事も出来そうですが、精度を求めてチャンネル数を増やすと、リアルタイムに耐えられる速度を保てるかどうかが怪しいですね。

投稿2018/05/29 15:54

編集2018/05/30 03:26
puroko3

総合スコア185

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問