質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Watson

Watsonは、IBMが開発した質問応答・意思決定支援を行うシステムです。人口知能と言われることもあるが、IBMは自然言語処理と機械学習を用いて人間の意思決定を支援するコグニティブコンピューティングプラットホームと呼んでいます。

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

Q&A

解決済

1回答

1021閲覧

音声認識を用いて自動で字幕を作成するためのおすすめのプログラミング言語など

KENT1004

総合スコア77

Watson

Watsonは、IBMが開発した質問応答・意思決定支援を行うシステムです。人口知能と言われることもあるが、IBMは自然言語処理と機械学習を用いて人間の意思決定を支援するコグニティブコンピューティングプラットホームと呼んでいます。

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

0グッド

0クリップ

投稿2020/11/01 04:03

要件の手順
①音声認識(watsonのspeech to text)で音声ファイルから「テキスト」を抽出する
②音声ファイルの波形から音声の各フレーズの「時間帯」を取得する
③取得したテキストと時間帯を取得して編集ソフトFilmoraの字幕機能を自動で活用する

要件の実情
①watsonによって既に実装されているので解決しています
②音声認識は波形とベクトル?を用いて実現しているらしいので、自分が音声認識もどきを実装できるようになることで「時間帯」を取得できると思います。
③「テキスト」と「時間帯」を編集ソフトFilmoraの字幕機能と結びつける解決案がないです。

質問
・Filmoraの概要はブラックボックス状態ですが、そういう外部のソフトを開発で自在に操作することは不可能ですか?(例:字幕機能にて該当する「時間帯」に自動でカーソルを合わせてテキストを自動で入力する)
・②③を解決するためのおすすめの言語は何でしょうか

宜しくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Filmoraの概要はブラックボックス状態ですが、そういう外部のソフトを開発で自在に操作することは不可能ですか?(例:字幕機能にて該当する「時間帯」に自動でカーソルを合わせてテキストを自動で入力する)

Filmoraというソフトの詳細はよく知りませんが、自動キー入力機能をpythonやその他のプログラミングで行うことで一応できなくもないと思いますが、手間がかかると思います。
特に「時間帯」に自動でカーソルを合わせる、という部分は、ウィンドウ内のコントロールの状態を取得したうえで処理しないといけないので、難度は高いでしょう。

御記載のようにFilmoraはブラックボックス=外部から操作するためのAPIや、字幕をインポートするための機能がないようなので、
アプリ外で作成したデータを実用的なレベルで活用するのは難しいと思われます。
しっかりしたSDKが用意されているAdobe製品に切り替えるか、敷居が高いですが、AviUtilに字幕インポートできるプラグインがないか漁ってみた方が早いでしょう。

・②③を解決するためのおすすめの言語は何でしょうか

https://teratail.com/cautions_question の「問題・課題が含まれていない質問」の×の例にあるように、この種の質問は、「問題・課題が含まれていないもの」として、回答対象としては適していません。
ただ折角なのであえていうならば、②の「音声ファイルの波形から音声の各フレーズの「時間帯」を取得する」という部分については、pythonのpyaudioとpandasライブラリでできると思います。

③の「「テキスト」と「時間帯」を編集ソフトFilmoraの字幕機能と結びつける解決案がないです。」という点については、上述のように、難度は高いがpython等で自動キー入力機能を使うか、そもそもそうした外部操作に適さないFilmoraというソフトそのものの使用を諦めるかになるでしょう。

投稿2020/11/01 04:52

編集2020/11/01 04:53
sfdust

総合スコア1135

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問