音声認識を用いて自動で字幕を作成するためのおすすめのプログラミング言語など

要件の手順
①音声認識(watsonのspeech to text)で音声ファイルから「テキスト」を抽出する
②音声ファイルの波形から音声の各フレーズの「時間帯」を取得する
③取得したテキストと時間帯を取得して編集ソフトFilmoraの字幕機能を自動で活用する

要件の実情
①watsonによって既に実装されているので解決しています
②音声認識は波形とベクトル？を用いて実現しているらしいので、自分が音声認識もどきを実装できるようになることで「時間帯」を取得できると思います。
③「テキスト」と「時間帯」を編集ソフトFilmoraの字幕機能と結びつける解決案がないです。

質問
・Filmoraの概要はブラックボックス状態ですが、そういう外部のソフトを開発で自在に操作することは不可能ですか？（例：字幕機能にて該当する「時間帯」に自動でカーソルを合わせてテキストを自動で入力する）
・②③を解決するためのおすすめの言語は何でしょうか

宜しくお願いします。

行動規範の内容に同意します

回答1件

ベストアンサー

Filmoraの概要はブラックボックス状態ですが、そういう外部のソフトを開発で自在に操作することは不可能ですか？（例：字幕機能にて該当する「時間帯」に自動でカーソルを合わせてテキストを自動で入力する）

Filmoraというソフトの詳細はよく知りませんが、自動キー入力機能をpythonやその他のプログラミングで行うことで一応できなくもないと思いますが、手間がかかると思います。
特に「時間帯」に自動でカーソルを合わせる、という部分は、ウィンドウ内のコントロールの状態を取得したうえで処理しないといけないので、難度は高いでしょう。

御記載のようにFilmoraはブラックボックス＝外部から操作するためのAPIや、字幕をインポートするための機能がないようなので、
アプリ外で作成したデータを実用的なレベルで活用するのは難しいと思われます。
しっかりしたSDKが用意されているAdobe製品に切り替えるか、敷居が高いですが、AviUtilに字幕インポートできるプラグインがないか漁ってみた方が早いでしょう。

・②③を解決するためのおすすめの言語は何でしょうか

https://teratail.com/cautions_question の「問題・課題が含まれていない質問」の×の例にあるように、この種の質問は、「問題・課題が含まれていないもの」として、回答対象としては適していません。
ただ折角なのであえていうならば、②の「音声ファイルの波形から音声の各フレーズの「時間帯」を取得する」という部分については、pythonのpyaudioとpandasライブラリでできると思います。

③の「「テキスト」と「時間帯」を編集ソフトFilmoraの字幕機能と結びつける解決案がないです。」という点については、上述のように、難度は高いがpython等で自動キー入力機能を使うか、そもそもそうした外部操作に適さないFilmoraというソフトそのものの使用を諦めるかになるでしょう。

投稿2020/11/01 04:52

編集2020/11/01 04:53