前提・実現したいこと
IBM_Cloudのspeech to textで音声認識をして文字起こしをしたい。
発生している問題・エラーメッセージ
Error received: unable to transcode data stream audio/mpeg -> audio/x-float-array
該当のソースコード
Python
1# coding: UTF-8 2import json 3from os.path import join, dirname 4from ibm_watson import SpeechToTextV1 5from ibm_watson.websocket import RecognizeCallback, AudioSource 6from ibm_cloud_sdk_core.authenticators import IAMAuthenticator 7 8# FIX_VALUE 9FILE_NAME='/content/新規ファイル_0.mp3.wbm' 10 11authenticator = IAMAuthenticator('Key') 12speech_to_text = SpeechToTextV1( 13 authenticator=authenticator 14) 15 16speech_to_text.set_service_url('URL') 17 18class MyRecognizeCallback(RecognizeCallback): 19 def __init__(self): 20 RecognizeCallback.__init__(self) 21 22 def on_data(self, data): 23 print(json.dumps(data, ensure_ascii=False)) 24 25 26 def on_error(self, error): 27 print('Error received: {}'.format(error)) 28 29 def on_inactivity_timeout(self, error): 30 print('Inactivity timeout: {}'.format(error)) 31 32myRecognizeCallback = MyRecognizeCallback() 33 34with open(join(dirname('__file__'), './.', FILE_NAME), 35 'rb') as audio_file: 36 audio_source = AudioSource(audio_file) 37 speech_to_text.recognize_using_websocket( 38 audio=audio_source, 39 content_type='audio/mp3', 40 recognize_callback=myRecognizeCallback, 41 model='ja-JP_BroadbandModel', 42 keywords=['colorado'], 43 keywords_threshold=0.5, 44 max_alternatives=1)
試したこと
インターネット検索
補足情報(FW/ツールのバージョンなど)
google colaboratoryを利用しています。
あなたの回答
tips
プレビュー