質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.47%

  • Python

    8616questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    6911questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • 機械学習

    715questions

    機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

リアルタイム音声認識の完成度をあげたい!

受付中

回答 0

投稿

  • 評価
  • クリップ 0
  • VIEW 1,766

jajauma007

score 4

話した内容がテキスト化される音声認識をGoogleAPIを用いて実装中
一応話した内容が表示されるようになったのだが・・・

・音声ファイルをGoogleサーバに送る
・認識結果を受け取る
・認識結果を表示する

この間に話した内容はstreamをcloseにしているので録音されていない
(streamをcloseにしている理由は、openのまま音声認識を行うとinputOverFlowと表示され、エラーが発生するため)

【課題】
Googleサーバで音声認識をしている間に話している内容を録音したい
(音声の録音と音声認識は並列処理?で行える??)

##### coding:utf8
import base64
from googleapiclient import discovery
import httplib2

import pyaudio  #録音機能を使うためのライブラリ
import wave     #wavファイルを扱うためのライブラリ
import time
import math
import audioop

#APIキーを設定
key = "APIキー"

DISCOVERY_URL = ('https://{api}.googleapis.com/$discovery/rest?'
                 'version={apiVersion}')

#音声を保存するファイル名
WAVE_OUTPUT_FILENAME = "sample10.wav"

RATE = 44100
CHUNK = 1024
CHANNELS = 1
FORMAT = pyaudio.paInt16
DECIBEL_THRESHOLD=50
frames=[]
frame_counter = 0
start_Rec = False

def get_speech_service():
    http = httplib2.Http()
    return discovery.build(
        'speech', 'v1', http=http, discoveryServiceUrl=DISCOVERY_URL, developerKey=key)

def SpeechAPI():
    #音声ファイルを開く
    waveFile = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
    waveFile.setnchannels(CHANNELS)
    waveFile.setsampwidth(p.get_sample_size(FORMAT))
    waveFile.setframerate(RATE)
    waveFile.writeframes(b''.join(frames))
    waveFile.close()
    with open(WAVE_OUTPUT_FILENAME, 'rb') as speech:
        speech_content = base64.b64encode(speech.read()) 

    #APIの情報を取得して、音声認識を行う
    service = get_speech_service()
    service_request = service.speech().recognize(
        body={
            'config': {
                'encoding': 'LINEAR16',
                'sampleRateHertz': 44100,
                'languageCode': 'ja-JP', #日本語に設定
                'enableWordTimeOffsets': 'false',
            },
            'audio': {
                'content': speech_content.decode('UTF-8')
                }
            })

    #SpeechAPIによる認識結果を保存
    response = service_request.execute()

    #見やすいようにコンソール画面で出力
    for i in response["results"]:
        print(i["alternatives"][0]["transcript"],"confidence:" , i["alternatives"][0]["confidence"])

if __name__=='__main__':
    p = pyaudio.PyAudio()

    stream = p.open(format=FORMAT,
            channels=CHANNELS,
            rate=RATE, 
            input=True,
            frames_per_buffer=CHUNK)
    while True:
        data=stream.read(CHUNK)#ストリームを開く
        rms=audioop.rms(data,2)
        decibel=20*math.log10(rms)
        if decibel >= DECIBEL_THRESHOLD:#音圧レベルが50dB以上なら録音開始
            start_Rec=True
            frame_counter=0
        if start_Rec==True and decibel<DECIBEL_THRESHOLD:
            frame_counter+=1
            if frame_counter>=20:#録音開始後、20チャンク分の無音が続いた場合は録音終了
                frame_counter=0
                start_Rec=False
                stream.stop_stream()
                stream.close()#ストリーム閉じる
                p.terminate()
                SpeechAPI()#音声認識
                stream = p.open(format=FORMAT,#ストリーム再開
                                channels=CHANNELS,
                                rate=RATE, 
                                input=True,
                                frames_per_buffer=CHUNK)
                frames=[]
        if start_Rec==True:
            frames.append(data)


元々の文章
赤ちゃんの鳴き声を翻訳するアプリが自閉症の早期発見を加速する。
赤ちゃんの鳴き声をアルゴリズムによって解析し、(※ここは認識中に読み上げて録音されなかった)
人工知能 AI によって泣いている理由を教えてくれる無料アプリが公開された

赤ちゃんの鳴き声を翻訳するアプリが自閉症の早期発見を加速する confidence: 0.9511766
人工知能 AI によって泣いている理由を教えてくれる無料アプリが公開された confidence: 0.93573725
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.47%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

  • 受付中

    Watson の speech to text を HTTP REST で呼び出す方法

    前提・実現したいこと 【IBM Watson音声認識のAPI呼び出し】 IBM Watson の HTTP REST API で speech to text の recogn

  • 解決済

    音声出力の途中で画像を更新する方法

    前提・実現したいこと Raspberry Pi3とpythonを用いて画像出力と音声出力を行っています。そしてその音声が5秒間あり、音声出力開始から3秒後に(音声を出力したまま)

  • 解決済

    PythonのCGIのwavファイルの読み込みに関してです。

    python初心者(python3.5)です。CGIの勉強をしていましてwavファイルの読み込みの方法がどうしてもわかりません。どなたかpythonに詳しい方、ご教示をお願い

  • 解決済

    音楽ファイルの再生時間やジャケットを取得したい

    プログラミング初学者です 現在mp3プレーヤーを作成しているのですが、ファイルの再生時間やジャケットを取得する方法にはどのような方法があるでしょうか ファイルの名前の取得にはmut

  • 解決済

    pygameを用いたMIDIの制御

    実現したい内容 pygameを用いてMIDIデバイスの入力を受け取り、リアルタイムでSin波で演奏 複数音の出力および、ベロシティの対応  発生してる問題 キーを押した時と離し

  • 解決済

    Python3で指定の項目の値を出力したい

     実現したいこと AWSのRekognition(画像解析サービス)から返される解析結果の中から、指定の項目を出力したいと考えています。 初歩的な質問で恐縮ですがどのような処理を記

  • 解決済

    threading時に起こるpyaudioのエラー

    こちらの質問にあるように常時音を監視して一定異常の音量が鳴った回数を記録するプログラムとLEDの点灯を切り替えるプログラムをthreadingで並列処理させるプログラムを組んだので

  • 解決済

    opencvの処理をリアルタイムに

    処理が途中でとまり、 処理後フォルダにaviファイルは保存されるのですが2秒ほどの動画となってしまいます 動画を撮り続けて自分で止めたい場合どのようにすればよいでしょうか アドバイ

同じタグがついた質問を見る

  • Python

    8616questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    6911questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • 機械学習

    715questions

    機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。