音声認識エンジンのJuliusについて質問です.
長文を読み上げた音声ファイルを認識させているのですが,
マルチパス認識においてショートポーズのアライメントが出力されません…
第1パスでの認識(-1pass)では,結果の単語毎のアライメント出力に
無音区間(ショートポーズ<sp>)が反映されるのですが,
マルチパスでの認識にすると,
無音区間が結果から除外されての<sp>のフレーム区間が単語に含まれるようになってしまいます.
具体的には,
以下が第1パスのみのアライメント出力で,
[ 317 345] -21.713615 52 [<sp>]
[ 346 407] -27.224831 0 [北風と]
[ 408 466] -26.889500 3 [太陽が]
[ 467 499] -20.631540 52 [<sp>]
[ 500 579] -28.215076 4 [力くらべを]
[ 580 629] -28.214706 5 [しました]
マルチパスにすると,
[ 317 407] -25.887796 0 [北風と]
[ 408 469] -26.937485 3 [太陽が]
[ 470 579] -26.480789 4 [力くらべを]
[ 580 631] -28.262300 5 [しました]
のように<sp>が無くなってしまうといった具合です.
マルチパス認識においてもショートポーズのアライメントを取得するには
どのように設定したらよいでしょうか.
ちなみに,言語モデルは自分で作成した記述文法を使用しており,
ショートポーズを単語辞書において
#NOISE
<sp> sp
のように登録し,単語間にNOISEを配置してあります.
Juliusに詳しい方など,ぜひご回答をお待ちしております…!
あなたの回答
tips
プレビュー