音声データをbinaryからwavに変換して再生する

###前提
docomoの音声合成APIを使用して，botに話させたいと思っています．
このAPIから出力された音声データが
response.content
というものに格納されています．

音声データの形式がBinaryで
音声データのフォーマットは下記の通りです．

【符号化方式】
リニアPCM
【チャネル数】
1(モノラル)
【サンプル周波数】
16000
【ビット深度】
16bit(ビッグエンディアン)

###現状

今は，Binaryデータを直接再生できないので，以下のような形で，soxを使ってwavデータに変換して音声を再生しています．

    # バイナリデータの保存
    fp = open(tmp + binary_file, 'wb')
    fp.write(response.content)
    fp.close()

    print ('Save binary data: ' + tmp + binary_file)

    # raw -> wavのコマンド
    cmd = "sox -t raw -r 16k -e signed -b 16 -B -c 1 " + tmp + binary_file + " " + sound_dir + wav_file

    # コマンドを実行
    subprocess.check_output(cmd, shell=True)

    print("Done : " + sound_dir + wav_file)

    # wavの再生
    play_wav(sound_dir + wav_file)

def play_wav(wav_file_path):
    # wavファイルの再生
    cmd = "aplay -q " + wav_file_path
    # コマンドを実行
    subprocess.check_output(cmd, shell=True)

###問題点
shell上でsox, aplayを使用することでシステムを実現しているのですが，これが使えない環境(heroku上など)で，Binaryファイルからwavファイルを作成し，それを再生することはできますでしょうか．

###補足情報(言語/FW/ツール等のバージョンなど)
Python3.4, Heroku, Docomo音声合成API

行動規範の内容に同意します

回答2件

ベストアンサー

何点か

PCMデータをWAV化するには Python の標準パッケージの wave が使えます。

https://docs.python.jp/3/library/wave.html

WAVファイルを再生するのは PyAudio が使えます。

https://people.csail.mit.edu/hubert/pyaudio/

PyAudioはPCMデータをそのまま再生できますので、ただ再生したいだけであれば、1.の処理は不要です

herokuなどで・・

サーバサイドで音声が再生しても全く意味がありません。
WebAudioAPI等でクライアントサイドで再生する仕組みを構築する必要があると思われます。

投稿2017/04/26 23:34

magichan

総合スコア15898

donsan4090

2017/04/27 21:26

回答有難うございます． WebAudioAPIについて調べてみます．もう少し，創りたいものを説明します．初心者なので何かアドバイスがあれば教えていただきたいです．創りたいもの: 音声でしゃべるチャットボット(喋ってコンシェルみたいなもの) 実装: botはslackで作ります．botの動作としては，こちらが入力したテキストに対して，docomoの雑談apiで返答のテキストを返して，それを合成音声apiに投げて音声データを取得します．pcmデータからwavに変換して（先の質問でここが解決しました），botが返答のテキストを返す際に再生するようにしようとしています．このbotのプログラムをheroku上にデプロイして動かしたいと思っています．現状: herokuにデプロイして，返答テキストをbotから返すところ，wavのデータを取得するところまでできています．ただ，そのwavファイルをどうすれば，返答テキストと一緒に再生できるかがわかりません．また，slackは使おうと思うのですが，それ以外の部分は変えても構わないと思っています．こちらの方がいいという構成等がありましたら，教えていただきたいです．回答に対して，質問してしまいましたが，お返事いただければ幸いです．

magichan

2017/04/28 00:56

どもです。やろうとしていることは理解しました。とりあえずサーバ(heroku)上にある音声ファイルをどうやってクライアント（ブラウザ）側で再生するかを検討する必要がありますね。通常サーバ上の音声ファイルをブラウザ上で再生するためには WebAudioAPI を使います。が、今回はSlack上で動作させる必要があるので難しそうです。とりあえずSlackに音声を再生するための仕組み(API)があるのか？他に似たようなことを実現している人がいないか？などで調査してみるとよいと思います。がんばってください。

行動規範の内容に同意します

pythonから直接的にという意味合いが質問意図だとすればそれからは外れるかも知れませんが、技術的にはリモートホスト上のアプリケーションからローカルにある音声デバイス（スピーカー）を鳴らすこと自体はできるようで、双方がLinuxだとPulseAudioでそれをやってみたという記事が見つかります。

ただ、実際にHerokuにPulseAudioがインストールされているかは分かりません><
dpkg -l | grep pulseaudioで確認してみてください。

もしpulseaudioが入ってないなら、音声ファイルを単なるバイナリーとして扱い、リモート<->ローカル間でやりとりするアプリケーションを書き、ローカル側で音声ファイルをmpc, aplay, etc.の方法で再生することになると思います。

(本件には直接関係しませんが、この記事を見る限りmpcを使うとaplayより使い勝手がよさそうです)

投稿2017/04/27 00:12

KSwordOfHaste

総合スコア18404

donsan4090

2017/04/27 21:17

回答有難うございます． pulseAudioは知りませんでした． magichanさんの回答から，herokuサイドのプログラムにおいて，wavファイルを生成することができました． botに話させるためには，ローカルにwavファイルを移動させて再生する仕組みが必要になります．それがplulseaudioでできるか見てみます．ありがとうございまいた．

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問