Kaldi「yesno」モデルを利用したリアルタイム音声認識を行いたい
現在Kaldiを用いたリアルタイム音声認識機能を作成しております。
Kaldi-gstreamerserverの構築手順を参考に構築を行い、masterサーバ・workerサーバ共に起動させて状態での、テスト用の音声ファイルの認識を確認しています。
また、ブラウザ利用のライブラリを使用し、websockets通信でのリアルタイム音声認識の実行も確認しております。
しかし、あくまで実行確認に使用したモデルはデフォルトで存在しているシェルスクリプトを流しダウンロードしたモデルとなります。
kaldi-gstreamerserverで言えば、中国語・英語・エストニア語となります。
このモデルを、kaldi/egs/yesno/s5/run.shにて作成したモデルに置き換え、リアルタイム音声認識を行いたいです。
しかし、ドキュメントをみてもモデルを入れ替える方法が載っておらず、とても困っております。
kaldi-gstreamerserverの使用するモデルをデフォルトでついているモデル以外にする方法が分かる方がいましたらご教授願いたいです。
試したこと
「HCLG.fst」「final.mdl」「words.txt」を「yesno」のものに変更し実行してみましたが、実行できませんでした。
サンプルモデルダウンロードページより、kaldi nnet3 chain model samplesの日本語をダウンロードし、上記と同じように実行すると、worker起動は問題なくできましたが、テスト音声にて実行次に出力がされませんでした。(裏でmaster・worker共に正常に「動いていました)
補足情報(FW/ツールのバージョンなど)
linux_ubuntu18.04
kaldi:https://github.com/kaldi-asr/kaldi.git
kaldi-gstreamer-server:https://github.com/alumae/kaldi-gstreamer-server.git
gst-kaldi-nnet2-online:https://github.com/alumae/gst-kaldi-nnet2-online.git
あなたの回答
tips
プレビュー