python2.7 windows で文字列やテキストなどをスピーチさせる・読み上げる

Question

Pythonで文字列やテキストを読み上げる機能を作っていますが、**gTTS**でやってみました。
とくに問題ないですが、気になるのはmp3ファイルを作って音声を再生していることです。
できれば、直接読み上げさせたいです。もっといいライブラリーとかありますか？

Accepted Answer

実用的かというと疑問ですが、gTTS(google text to speech)を使ってもファイルへセーブせずにできそうな気がしたのでやってみました。

gTTSにはmp3ファイルへ出力するsaveメソッドの他にwrite_to_fpメソッドというのがありますね。これでmp3形式のままストリームへ書き込むことはできます。

再生についてpygameが簡単そうなので調べてみますとpygame.mixer.music.loadのドキュメントにこう書いてありました。

> load(filename) -> None
load(object) -> None
Load a music file for playback

2番目の引数のobjectの意味を[github: rwobject.c](https://github.com/takluyver/pygame/blob/master/src/rwobject.c)で見てみるとどうやらこれもストリームを想定しているようでした。

そこでファイルの代わりに`io.BytesIO`へ音声データを保存して再生できるか試しました。短いテキストだと数十KBぐらいのサイズになりますが、とりあえずは再生できました。

```Python
from gtts import gTTS
from pygame import mixer
import time
import io


text = """
Open the Pod bay doors, HAL.
I'm sorry Dave, I'm afraid I can't do that.
"""


def run_tts(t):
    tts = gTTS(text=t, lang='en', slow=True)
    f = io.BytesIO()
    tts.write_to_fp(f)
    print('    sound size=', f.tell())
    f.seek(0, 0)
    mixer.music.load(f)
    mixer.music.play(1)
    while True:
        time.sleep(0.1)
        if not mixer.music.get_busy():
            break
    f.close()
    time.sleep(0.2)


if __name__ == '__main__':
    mixer.init()
    for t in text.split('
'):
        if t == "":
            continue
        print('speaking:', t)
        run_tts(t)
    mixer.music.stop()
```


最初長めのテキストを「gTTSから音声データを読みつつ、別のスレッドで並行して再生する」というのをイメージしていたのですが、mixer.music.load/playの挙動を調べてみると最初にストリームの末尾へseekしており「一回ごとにgTTSから完全なMP3フォーマットのデータを読み込んでから再生した方がよさそう」と感じたので上記のような単純なコードにしました。

やってみると結構不安定で、たまにHALが同じ単語を永遠に繰り返し始めます...
ファイルへ保存してから再生するともっと安定するのかどうか。そのあたりはやってみてません。

---
Windows 10, Python 3.6.0(Python 2.Xではやってみてません)
gTTS 1.2.2
pygame 1.9.3

関連した質問