質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Google API

Googleは多種多様なAPIを提供していて、その多くはウェブ開発者向けのAPIです。それらのAPIは消費者に人気なGoogleのサービス(Google Maps, Google Earth, AdSense, Adwords, Google Apps,YouTube等)に基づいています。

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

Q&A

解決済

1回答

3597閲覧

C# Cloud Speech-to-Text 変換結果(1Ch)の遅延

sigoto

総合スコア11

Google API

Googleは多種多様なAPIを提供していて、その多くはウェブ開発者向けのAPIです。それらのAPIは消費者に人気なGoogleのサービス(Google Maps, Google Earth, AdSense, Adwords, Google Apps,YouTube等)に基づいています。

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

0グッド

0クリップ

投稿2019/08/15 00:07

前提・実現したいこと

  • C#
  • Cloud Speech-to-Text
  • NAudio(音声録音) 
  • コンソールアプリ

2Ch(L/R)のステレオ音声を、リアルタイムで
コンソール画面にテキスト表示するプログラムを作成しています。

2Ch側は問題ないのですが、
1Ch側は、結果が数秒遅れて返ってくるため
リアルタイム表示できていません。

1Chの結果が遅れる理由がわからず、
困り果てています。
どなたかご存知でしょうか。

参考にしたサイト http://kmycode.hatenablog.jp/entry/2017/04/11/220108

該当のソースコード

C#

1static void Main(string[] args) 2{ 3 var aaaa = File.ReadAllText("XXXXXXX.json"); 4 5 // 証明書を作成 6 var credential = GoogleCredential.FromJson(File.ReadAllText("XXXXXXX.json")); 7 credential = credential.CreateScoped("https://www.googleapis.com/auth/cloud-platform"); 8 9 // サーバに接続するためのチャンネルを作成 10 var channel = new Channel("speech.googleapis.com:443", credential.ToChannelCredentials()); 11 12 // Google Speech APIを利用するためのクライアントを作成 13 var client = new Speech.SpeechClient(channel); 14 15 // ストリーミングの設定 16 var streamingConfig = new StreamingRecognitionConfig 17 { 18 19 Config = new RecognitionConfig 20 { 21 SampleRateHertz = 16000, 22 Encoding = RecognitionConfig.Types.AudioEncoding.Linear16, 23 LanguageCode = "ja-JP", 24 25 //複数CH 26 EnableSeparateRecognitionPerChannel = true, 27 AudioChannelCount = 2, 28 }, 29 InterimResults = true, 30 SingleUtterance = false, 31 32 }; 33 34 // 2秒を25回回すようにしてみる。 35 Console.WriteLine("-----------\nstart.\n"); 36 for (int r = 1; r <= 25; r++) 37 { 38 // ストリーミングを開始 39 using (var call = client.StreamingRecognize()) 40 { 41 42 43 // Cloud Speech APIからレスポンスが返ってきた時の挙動を設定 44 var responseReaderTask = Task.Run(async () => 45 { 46 // MoveNext1回につきレスポンス1回分のデータがくる 47 while (await call.ResponseStream.MoveNext()) 48 { 49 var note = call.ResponseStream.Current; 50 51 // データがあれば、認識結果を出力する 52 if (note.Results != null && note.Results.Count > 0 && 53 note.Results[0].Alternatives.Count > 0) 54 { 55 //Ch1を表示する 56 if (note.Results[0].ChannelTag != 2) 57 { 58 Console.WriteLine("User: " + note.Results[0].ChannelTag); 59 Console.WriteLine("result: " + note.Results[0].Alternatives[0].Transcript); 60 } 61 } 62 } 63 }); 64 65 // 最初の呼び出しを行う。最初は設定データだけを送る 66 var initialRequest = new StreamingRecognizeRequest 67 { 68 StreamingConfig = streamingConfig, 69 }; 70 call.RequestStream.WriteAsync(initialRequest).Wait(); 71 72 // 録音モデルの作成 73 IAudioRecorder recorder = new RecordModel(); 74 75 // 録音モデルが音声データを吐いたら、それをすかさずサーバに送信する 76 recorder.RecordDataAvailabled += (sender, e) => 77 { 78 if (e.Length > 0) 79 { 80 // WriteAsyncは一度に一回しか実行できないので非同期処理の時は特に注意 81 // ここではlockをかけて処理が重ならないようにしている 82 lock (recorder) 83 { 84 call.RequestStream.WriteAsync(new StreamingRecognizeRequest 85 { 86 AudioContent = RecognitionAudio.FromBytes(e.Buffer, 0, e.Length).Content, 87 }).Wait(); 88 } 89 } 90 }; 91 92 // 録音の開始 93 recorder.Start(); 94 95 // Cloud Speech APIのストリーミングは1回60秒までなので、50秒まできたら打ち切る 96 var timer = new Timer(1000 * 5); // 50⇒5に変更(1Chの処理が2Chより遅いため 97 timer.Start(); 98 99 // 50秒経過した時、実際に打ち切るコード 100 timer.Elapsed += async (sender, e) => 101 { 102 recorder.Stop(); 103 await call.RequestStream.CompleteAsync(); 104 }; 105 106 // 待機 107 responseReaderTask.Wait(); 108 109 // ここに到達した時点で、APIの呼び出しが終了したということなので、タイマーを切る 110 timer.Dispose(); 111 } 112 } 113 // ここまで回す 114 Console.WriteLine("\n-----------\nCompleted (Time out)"); 115 Console.ReadKey(); 116}

試したこと

・50秒で打ち切りを5秒に変更
若干 結果表示が早くなったが、
2Chと比較すると、数秒遅い。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

RecordModelはどうなっているのでしょうか?
参考URLのソースですと

C#

1this.waveIn.WaveFormat = new WaveFormat(16000, 16, 1);

とモノラルのようですが、こちらもステレオに変更されているのでしょうか?
また、単に録音してみて両チャンネルともに音声が入っているか確認されましたでしょうか?

もし、上記を確認された後でしたら、この回答はなかったことにしてください。

というか、ステレオ指定でモノラルデータ送ったら、そもそも正常な応答が返ってこない気がします。
ですので、この回答は頓珍漢な回答の可能性が大きいですね

投稿2019/08/15 01:06

編集2019/08/15 01:21
YAmaGNZ

総合スコア10242

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sigoto

2019/08/15 01:38

ご教示ありがとうございます。 下記のように[2]に変更して、 変換結果が(それなりの精度で)返ってくるのですが、、、 ```C# this.waveIn.WaveFormat = new WaveFormat(16000, 16, 2); ``` Cloud Speech API側で、 Ch2の変換が終わってから、 Ch1の変換を行う、、、とかあるんでしょうか・・・
YAmaGNZ

2019/08/15 04:04

リアルタイムで入力する環境がないので、2チャンネルのWAVファイル(1CHで”あいうえお”、2CHで”てすとです”と同時に喋ったもの)を作成 して実験してみましたが、動作的には片方の解析が終わった後、もう片方のチャンネルの解析を行っているような動作をしました。
YAmaGNZ

2019/08/15 04:23

ただ、ファイルの送信の場合、リアルタイム送信とは違い、ある程度の時間のデータを短時間で流せるので、1CHと2CHの解析時間の差はあまり出ません。 また、音声を繰り返したものを用意し送信したところ、2CHがある程度解析されたところで1CHの応答も来るという動作を行いましたので一概に片方の解析終了後というわけでもなさそうです。 結局のところ、よくわかりませんでした。
sigoto

2019/08/15 04:41

YAmaGNZさま いろいろ調べていただいて、ありがとうございます。 今回は、Cloud Speech-to-Textのストリーミング変換の テストができればいいということで、 厳密にリアルタイムじゃなくてもOKとなりました。 ギモンは残りますが、解決済みとさせていただきます。 ご回答、本当にありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問