質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.75%

  • Python

    6840questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • 機械学習

    596questions

    機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

ディープラーニングで動画データを学習するには?

解決済

回答 2

投稿

  • 評価
  • クリップ 1
  • VIEW 602

dad

score 27

ディープラーニングに詳しい方に質問です。

動画認識、検出について質問があります。
近頃は、画像認識も発展してYoloやSSDといった進化形も登場してきているようですが、
動画の物体検出は、やはり「一度、画像に分解してから」行うものなのでしょうか?

動画を動画のまま学習するみたいなことはないのでしょうか?
いや、動画形式のデータを渡して…ということではなく、
動画ならではの「時間」の概念がなくなってしまうのではないかと思うのです。
ならば、RNNやLSTMに…とも思いましたが、すると、今度は畳み込みがなくなってしまいますよね?

例えば、何台もの停車している車のなか、1台だけがある一定時間だけ動いているという動画を学習して、動く車を検出する。このような検出はどのようにするのでしょうか?やはり画像に分解して畳み込みニューラルネットワークを利用するのでしょうか?

回答よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+5

去年が最近かどうかは人によりますが、例えば、

https://www.kaggle.com/c/youtube8m/discussion/35063

他にも探せば色々出てくるとは思いますよ。


単純にコマごとに車を検出してから連続性と運動方程式から推定することもできます。
車の例だと、車を認識できてしまえば、その後は汎用的なモデルが必要というより、物理の基礎方程式を使った方が精度が出るはずですね。

高速に処理することが目的ならもっと原始的な検出と組み合わせるのではないでしょうか。


時系列性をそもそも重要視する必要があるかどうかというのも問題です。
時間の区間があるということは、サンプルの数が増えるということです。
そうであれば、時間に渡ってアンサンブルするということも考えられます。

ある映像が途中で切り替わっていないかを判定することや、現実にあり得る動画かどうかを判定するのなら時系列性は大事そうです。

現実の動画であるのなら、連続性が保障されるので、その部分を曖昧にせずに仮定としてしまう方がモデルの精度が上がりそうです。


深層学習は得意な部分もありますが、なにもかもに対してよいとは限りません。
たまにネタでFizzbuzzしている人もいますが、練習としてやるのならともかく、if文で組んだ方が精度が高いのは明確です。

モデルを組むには未知なことが問題に含まれていることが必要です。

RNNの強みを再考してみてください。
金融の時系列データは不確定性が高く、基礎方程式を立てるのが困難です。
言語翻訳は時系列が重要ではなく、順序に注目しています。
異常検出は想定外の変化を見ようとしています。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+3

そういう研究が行われているかどうかはわかりませんが、
入力値のチャンネル数を増やせば、疑似的に時間の概念を作れるのでは思いました。
例えば、500*500の動画を学習させたいとし
読み込んだ直近100枚分画像を覚えておきたいとすると
500*500*100を入力値として与えてやるとよさそうです。

実際に、alpha go やalpha syogiはコウや千日手のルールを覚えさせるために同じような手法を取っています。
(現在の局面 + 直近の局面を入力値として与えている。)

今回の問題も現在の状況と過去の状況がわかればいいので、同じ手法を取れば、動いてる車を検出する事も出来そうですが、精度を求めてチャンネル数を増やすと、リアルタイムに耐えられる速度を保てるかどうかが怪しいですね。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.75%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

  • 解決済

    機械学習に詳しい人質問です。【初心者です】

    機械学習に詳しい人質問です。【初心者です】 一般物体認識で冷蔵庫の中身を管理する機器を作りたいと思っております。 そこで、この食材はホウレンソウだ。これはネギだ。みたいに、認識する

  • 解決済

    ディープラーニングに詳しい人質問です

    冷蔵庫に食材を入れるとき、その食材はなにか(「豆乳」とか「ブドウジュース」などでOKなので、細かすぎなくていいです。)を認識する機器を作りたいと思っています。 そこで、グーグルの検

  • 解決済

    ディープラーニングによって2次元画像から3Dモデルを生み出す技術はありますか?

    3Dモデルを簡単に作れる技術、今のゲームや映画とまで行かなくても、MMDで使われているような3Dモデルをたった一日で一から製作してしまうような技術はないのか、 あるいは作る事は出

  • 解決済

    背景画像を拡大しようとすると段々模様になってしまいます

    困っていること CSSにて背景画像を画面いっぱいより少し大きくしたいので、background-sizeを使ってパーセント指定したところ、細かい段々模様になりました。 どうすれ

  • 解決済

    Tensorflowで必要なVRAM容量

    Tensorflowで、必要になるVRAMの容量はどのように計算すればよいのでしょうか。(GPU使用時) メモリの容量が足りないと言われるのですが、単純に変数の大きさを計算して足

  • 解決済

    機械学習の学び方について

    機械学習を始めたいのですが、どこからキャッチアップを始めるべきでしょうか。 言語はpython3で、ビットコインや株のシステムトレードソフトウェアを開発予定です。その上で、どん

  • 解決済

    サンプルコードに画像を読み込ませたい

    前提・実現したいこと 私は本を使ってディープラーニングを用いた画像処理について勉強しています。そこではサンプルコードが与えられており、画像の読み込みは自分で行わなければなりません。

  • 受付中

    機械学習(ディープラーニング)の応用例

    画像A→A' B→B' C→C'、、、 →を関数、画像AからA'を作り出す関数だとします. A'、B'、C'、、、からA,B,Cの画像を出したいのですがディープラーニングのどういう

同じタグがついた質問を見る

  • Python

    6840questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • 機械学習

    596questions

    機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。