字幕とかではなくて、動画中の看板とかモニタの中とか、車のナンバープレートとかそういうのですよね?
角度によって変形するし、光源の加減でノイズが入るし、フォントも色も一定じゃないし困難だとは思います。
掲示板に投稿するときの画像文字認証の文字を瞬時に解析するような技術が要求されると思います。
音声からのテキスト起こしと似たようなもので、何処までの解読精度を求めるかと、誤字脱字をどの程度許容できるかについて、開発工数と折り合いをつける必要が出てきそうですね。
ブラウザで再生してる最中とかにjavascript等でテキストがあったら抽出
何処までアバウトさを許容できるかだと思います。
javascriptだけだと速的にも厳しそうに思います。将来的なバージョンでの機能拡張とハードの速度向上をまつべきかも知れませんね。遅延が出てもよければサーバへデータ送ってサーバ側プログラムで解析して送り返す…でもきつそうですね。
明瞭な文字ならごく稀に何文字かテキスト起こしが出きる…かも?くらいまでいけたらいいほうかも?
将来を見越したデモプログラムとか
アルゴリズムは郵便局の住所読み取り機械の延長とかでいけるのかな?ずっと困難になりそうですが……