リアルタイム音声認識の完成度をあげたい！

話した内容がテキスト化される音声認識をGoogleAPIを用いて実装中
一応話した内容が表示されるようになったのだが・・・

・音声ファイルをGoogleサーバに送る
・認識結果を受け取る
・認識結果を表示する

この間に話した内容はstreamをcloseにしているので録音されていない
(streamをcloseにしている理由は、openのまま音声認識を行うとinputOverFlowと表示され、エラーが発生するため)

【課題】
Googleサーバで音声認識をしている間に話している内容を録音したい
（音声の録音と音声認識は並列処理？で行える？？）

Python
1##### coding:utf8
2import base64
3from googleapiclient import discovery
4import httplib2
5 
6import pyaudio  #録音機能を使うためのライブラリ
7import wave     #wavファイルを扱うためのライブラリ
8import time
9import math
10import audioop
11 
12#APIキーを設定
13key = "APIキー"
14 
15DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?'
16                 'version={apiVersion}')
17
18#音声を保存するファイル名
19WAVE_OUTPUT_FILENAME = "sample10.wav"
20
21RATE = 44100
22CHUNK = 1024
23CHANNELS = 1
24FORMAT = pyaudio.paInt16
25DECIBEL_THRESHOLD=50
26frames=[]
27frame_counter = 0
28start_Rec = False
29
30def get_speech_service():
31    http = httplib2.Http()
32    return discovery.build(
33        'speech', 'v1', http=http, discoveryServiceUrl=DISCOVERY_URL, developerKey=key)
34 
35def SpeechAPI():
36    #音声ファイルを開く
37    waveFile = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
38    waveFile.setnchannels(CHANNELS)
39    waveFile.setsampwidth(p.get_sample_size(FORMAT))
40    waveFile.setframerate(RATE)
41    waveFile.writeframes(b''.join(frames))
42    waveFile.close()
43    with open(WAVE_OUTPUT_FILENAME, 'rb') as speech:
44        speech_content = base64.b64encode(speech.read()) 
45 
46    #APIの情報を取得して、音声認識を行う
47    service = get_speech_service()
48    service_request = service.speech().recognize(
49        body={
50            'config': {
51                'encoding': 'LINEAR16',
52                'sampleRateHertz': 44100,
53                'languageCode': 'ja-JP', #日本語に設定
54                'enableWordTimeOffsets': 'false',
55            },
56            'audio': {
57                'content': speech_content.decode('UTF-8')
58                }
59            })
60 
61    #SpeechAPIによる認識結果を保存
62    response = service_request.execute()
63 
64    #見やすいようにコンソール画面で出力
65    for i in response["results"]:
66        print(i["alternatives"][0]["transcript"],"confidence:" , i["alternatives"][0]["confidence"])
67
68if __name__=='__main__':
69    p = pyaudio.PyAudio()
70 
71    stream = p.open(format=FORMAT,
72            channels=CHANNELS,
73            rate=RATE, 
74            input=True,
75            frames_per_buffer=CHUNK)
76    while True:
77        data=stream.read(CHUNK)#ストリームを開く
78        rms=audioop.rms(data,2)
79        decibel=20*math.log10(rms)
80        if decibel >= DECIBEL_THRESHOLD:#音圧レベルが50dB以上なら録音開始
81            start_Rec=True
82            frame_counter=0
83        if start_Rec==True and decibel<DECIBEL_THRESHOLD:
84            frame_counter+=1
85            if frame_counter>=20:#録音開始後、20チャンク分の無音が続いた場合は録音終了
86                frame_counter=0
87                start_Rec=False
88                stream.stop_stream()
89                stream.close()#ストリーム閉じる
90                p.terminate()
91                SpeechAPI()#音声認識
92                stream = p.open(format=FORMAT,#ストリーム再開
93                                channels=CHANNELS,
94                                rate=RATE, 
95                                input=True,
96                                frames_per_buffer=CHUNK)
97                frames=[]
98        if start_Rec==True:
99            frames.append(data)

元々の文章
赤ちゃんの鳴き声を翻訳するアプリが自閉症の早期発見を加速する。
赤ちゃんの鳴き声をアルゴリズムによって解析し、(※ここは認識中に読み上げて録音されなかった)
人工知能　AI によって泣いている理由を教えてくれる無料アプリが公開された

赤ちゃんの鳴き声を翻訳するアプリが自閉症の早期発見を加速する confidence: 0.9511766
人工知能 AI によって泣いている理由を教えてくれる無料アプリが公開された confidence: 0.93573725

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

リアルタイム音声認識の完成度をあげたい！

関連した質問