動画のテキスト抽出

Question

iphone等で撮った動画内に映っている数字やテキストがあった場合、抽出するということは技術的に可能なのでしょうか？

ブラウザで再生してる最中とかにjavascript等でテキストがあったら抽出。みたいなことが出来たら理想です。


技術的に可能なのかどうかもわかりませんが、アドバイスいただければと思ってます。

Answer

字幕とかではなくて、動画中の看板とかモニタの中とか、車のナンバープレートとかそういうのですよね？
角度によって変形するし、光源の加減でノイズが入るし、フォントも色も一定じゃないし困難だとは思います。
掲示板に投稿するときの画像文字認証の文字を瞬時に解析するような技術が要求されると思います。
音声からのテキスト起こしと似たようなもので、何処までの解読精度を求めるかと、誤字脱字をどの程度許容できるかについて、開発工数と折り合いをつける必要が出てきそうですね。

> ブラウザで再生してる最中とかにjavascript等でテキストがあったら抽出
何処までアバウトさを許容できるかだと思います。
javascriptだけだと速的にも厳しそうに思います。将来的なバージョンでの機能拡張とハードの速度向上をまつべきかも知れませんね。遅延が出てもよければサーバへデータ送ってサーバ側プログラムで解析して送り返す…でもきつそうですね。
明瞭な文字ならごく稀に何文字かテキスト起こしが出きる…かも？くらいまでいけたらいいほうかも？
将来を見越したデモプログラムとか

アルゴリズムは郵便局の[住所読み取り機械](http://jpn.nec.com/kids/himitsu/04.html)の延長とかでいけるのかな？ずっと困難になりそうですが……

Answer

可能かどうかといえば可能ですが、動画を動かしたままテキストを判定してというとかなり難しいです。
もちろん専用のハードとかあれば、可能ですが。
個人のPCだと難しいですね。
カメラ固定で、文字を映し続けているのならば可能だとは思いますが。
やるとしたら、文字が表示されたら、その場面のスクリーンショットをとって、OCRで読み取るという形になるでしょうか。
文字を読み取る以上、解像度はそれなりに必要となります。

関連した質問