自分の声を使って音声合成をしたいのですが、
調べてみるとtacotron2というものがかなり自然な声になるというのがわかりました。
https://heartstat.net/2022/04/10/python_speech-synthesis_myvoice/
サービスとしてテキストを入力するとバックグラウンドで音声合成されて数分、数十分後にメールで届く様なものを作りたいのですが、
テキストが5000〜1万文字くらいのものなので処理速度やサーバー性能が気になっています。
(インフラに関しては素人レベルなのでよくわかっていません。。)
もし5000〜1万文字の音声合成をしようとするとどれくらいの処理時間がかかるイメージなのでしょうか?またサーバースペックが結構必要になる物なのでしょうか?
(同時で処理するユーザー数によるかと思いますが、一旦同時で処理するのが100人くらいだとして)
他にも下記のようなサービスがある様ですがtacotron2ほどの自然な感じではなさそうですが、使用しているライブラリがもし分かればありがたいです。
https://coefont.cloud/
他に良いライブラリやAPIがあるのであればお伺いしたいです。
有料でも月1、2万程度で利用できるものがあれば利用検討したいと思っています。
よろしくお願いいたします。
まだ回答がついていません
会員登録して回答してみよう