merlinという音声合成ツールキットで音声生成するAIの中身の表面を理解することができるようになりました。
そこで、今度は本格的に認識や合成を作っていきたいと思います。
そう思ったのもイントネーションや喜怒哀楽がないからで、これからの認識や合成はそこが大きなポイントとなるためです。
しかし、タイトル通り勉強のとっかかりがよくわかりません。
調べても音声に関する情報が少なくどこに手を付ければいいのか困っています。
ディープラーニングの基礎から画像認識などを経てやり方を学べばいいのでしょうが、ゴールとなる部分もわかりません。
せめて認識や合成の仕組みを知りたいと思っています。わかればそこに向かって学習しやすいので。
merlinで音素、波形、高さ、音素時間、雑音? などの特徴を取っているので、想像では、そこに音階のようなイントネーション情報を入れて学習させればいいのかな? とぼんやり思っています。
実のところ音声合成の深い部分、音声の解析やモデル作成や学習方法がわかっていないので、実戦形式で学習できる方法を探しています。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。