今私は音声認識の機械学習を行おうとしているのですが、音声認識モデル構築にしようするコーパスについてですが、end to endの音声認識の仕組み自体は理解できるのですが、コーパスを用いた機械学習時に必要なものがよく理解できません。コーパスには音声データ、その書き起こしデータが必要というのは理解できるのですが、他に使用するデータがあるのか、全体像が把握できておりません。ご教授いただけませんでしょうか。また、後々はTTSによって作成した音声データとテキストデータをコーパスとして使用して学習または、モデルの評価を行おうと思っているのですが、コーパスとして適用するための手順をしっておられたらそれも伺いたいのですが・・・
あなたの回答
tips
プレビュー