C#　Cloud Speech-to-Text　変換結果(1Ch)の遅延

前提・実現したいこと

C#
Cloud Speech-to-Text
NAudio(音声録音)　
コンソールアプリ

2Ch(L/R)のステレオ音声を、リアルタイムで
コンソール画面にテキスト表示するプログラムを作成しています。

2Ch側は問題ないのですが、
1Ch側は、結果が数秒遅れて返ってくるため
リアルタイム表示できていません。

1Chの結果が遅れる理由がわからず、
困り果てています。
どなたかご存知でしょうか。

参考にしたサイト
http://kmycode.hatenablog.jp/entry/2017/04/11/220108

該当のソースコード

C#
1static void Main(string[] args)
2{
3    var aaaa = File.ReadAllText("XXXXXXX.json");
4
5    // 証明書を作成
6    var credential = GoogleCredential.FromJson(File.ReadAllText("XXXXXXX.json"));
7	credential = credential.CreateScoped("https://www.googleapis.com/auth/cloud-platform");
8
9	// サーバに接続するためのチャンネルを作成
10	var channel = new Channel("speech.googleapis.com:443", credential.ToChannelCredentials());
11
12	// Google Speech APIを利用するためのクライアントを作成
13	var client = new Speech.SpeechClient(channel);
14
15    // ストリーミングの設定
16    var streamingConfig = new StreamingRecognitionConfig
17    {
18        
19        Config = new RecognitionConfig
20        {
21            SampleRateHertz = 16000,
22            Encoding = RecognitionConfig.Types.AudioEncoding.Linear16,
23            LanguageCode = "ja-JP",
24
25            //複数CH
26            EnableSeparateRecognitionPerChannel = true,
27            AudioChannelCount = 2,            
28        },
29		InterimResults = true,
30		SingleUtterance = false,
31      
32    };
33
34    // 2秒を25回回すようにしてみる。
35    Console.WriteLine("-----------\nstart.\n");
36    for (int r = 1; r <= 25; r++)
37    {
38        // ストリーミングを開始
39        using (var call = client.StreamingRecognize())
40        {
41            
42
43            // Cloud Speech APIからレスポンスが返ってきた時の挙動を設定
44            var responseReaderTask = Task.Run(async () =>
45            {
46            // MoveNext１回につきレスポンス１回分のデータがくる
47            while (await call.ResponseStream.MoveNext())
48                {
49                    var note = call.ResponseStream.Current;
50
51                // データがあれば、認識結果を出力する
52                if (note.Results != null && note.Results.Count > 0 &&
53                        note.Results[0].Alternatives.Count > 0)
54                    {
55                    //Ch1を表示する
56                    if (note.Results[0].ChannelTag != 2)
57                        {
58                            Console.WriteLine("User: " + note.Results[0].ChannelTag);
59                            Console.WriteLine("result: " + note.Results[0].Alternatives[0].Transcript);
60                        }
61                    }
62                }
63            });
64
65            // 最初の呼び出しを行う。最初は設定データだけを送る
66            var initialRequest = new StreamingRecognizeRequest
67            {
68                StreamingConfig = streamingConfig,
69            };
70            call.RequestStream.WriteAsync(initialRequest).Wait();
71
72            // 録音モデルの作成
73            IAudioRecorder recorder = new RecordModel();
74
75            // 録音モデルが音声データを吐いたら、それをすかさずサーバに送信する
76            recorder.RecordDataAvailabled += (sender, e) =>
77            {
78                if (e.Length > 0)
79                {
80                // WriteAsyncは一度に一回しか実行できないので非同期処理の時は特に注意
81                // ここではlockをかけて処理が重ならないようにしている
82                lock (recorder)
83                    {
84                        call.RequestStream.WriteAsync(new StreamingRecognizeRequest
85                        {
86                            AudioContent = RecognitionAudio.FromBytes(e.Buffer, 0, e.Length).Content,
87                        }).Wait();
88                    }
89                }
90            };
91
92            // 録音の開始
93            recorder.Start();
94
95            // Cloud Speech APIのストリーミングは1回60秒までなので、50秒まできたら打ち切る
96            var timer = new Timer(1000 * 5);    //  50⇒5に変更(1Chの処理が2Chより遅いため
97            timer.Start();
98
99            // 50秒経過した時、実際に打ち切るコード
100            timer.Elapsed += async (sender, e) =>
101            {
102                recorder.Stop();
103                await call.RequestStream.CompleteAsync();
104            };
105
106            // 待機
107            responseReaderTask.Wait();
108
109            // ここに到達した時点で、APIの呼び出しが終了したということなので、タイマーを切る
110            timer.Dispose();
111        }
112    }
113    // ここまで回す
114	Console.WriteLine("\n-----------\nCompleted (Time out)");
115	Console.ReadKey();
116}

試したこと

・50秒で打ち切りを5秒に変更
若干結果表示が早くなったが、
2Chと比較すると、数秒遅い。

行動規範の内容に同意します

回答1件

ベストアンサー

RecordModelはどうなっているのでしょうか？
参考URLのソースですと

C#
1this.waveIn.WaveFormat = new WaveFormat(16000, 16, 1);

とモノラルのようですが、こちらもステレオに変更されているのでしょうか？
また、単に録音してみて両チャンネルともに音声が入っているか確認されましたでしょうか？

もし、上記を確認された後でしたら、この回答はなかったことにしてください。

というか、ステレオ指定でモノラルデータ送ったら、そもそも正常な応答が返ってこない気がします。
ですので、この回答は頓珍漢な回答の可能性が大きいですね

投稿2019/08/15 01:06

編集2019/08/15 01:21

YAmaGNZ

総合スコア10242

sigoto

2019/08/15 01:38

ご教示ありがとうございます。下記のように[2]に変更して、変換結果が(それなりの精度で)返ってくるのですが、、、 ```C# this.waveIn.WaveFormat = new WaveFormat(16000, 16, 2); ``` Cloud Speech API側で、 Ch2の変換が終わってから、 Ch1の変換を行う、、、とかあるんでしょうか・・・

YAmaGNZ

2019/08/15 04:04

リアルタイムで入力する環境がないので、2チャンネルのWAVファイル（1CHで”あいうえお”、2CHで”てすとです”と同時に喋ったもの）を作成して実験してみましたが、動作的には片方の解析が終わった後、もう片方のチャンネルの解析を行っているような動作をしました。

YAmaGNZ

2019/08/15 04:23

ただ、ファイルの送信の場合、リアルタイム送信とは違い、ある程度の時間のデータを短時間で流せるので、1CHと2CHの解析時間の差はあまり出ません。また、音声を繰り返したものを用意し送信したところ、2CHがある程度解析されたところで1CHの応答も来るという動作を行いましたので一概に片方の解析終了後というわけでもなさそうです。結局のところ、よくわかりませんでした。

sigoto

2019/08/15 04:41

YAmaGNZさまいろいろ調べていただいて、ありがとうございます。今回は、Cloud Speech-to-Textのストリーミング変換のテストができればいいということで、厳密にリアルタイムじゃなくてもOKとなりました。ギモンは残りますが、解決済みとさせていただきます。ご回答、本当にありがとうございました。

行動規範の内容に同意します