質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

1711閲覧

Pythonでの音声合成のライブラリと処理速度について

kimrion

総合スコア24

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2022/06/03 02:19

自分の声を使って音声合成をしたいのですが、
調べてみるとtacotron2というものがかなり自然な声になるというのがわかりました。

https://heartstat.net/2022/04/10/python_speech-synthesis_myvoice/

サービスとしてテキストを入力するとバックグラウンドで音声合成されて数分、数十分後にメールで届く様なものを作りたいのですが、
テキストが5000〜1万文字くらいのものなので処理速度やサーバー性能が気になっています。
(インフラに関しては素人レベルなのでよくわかっていません。。)

もし5000〜1万文字の音声合成をしようとするとどれくらいの処理時間がかかるイメージなのでしょうか?またサーバースペックが結構必要になる物なのでしょうか?
(同時で処理するユーザー数によるかと思いますが、一旦同時で処理するのが100人くらいだとして)

他にも下記のようなサービスがある様ですがtacotron2ほどの自然な感じではなさそうですが、使用しているライブラリがもし分かればありがたいです。
https://coefont.cloud/

他に良いライブラリやAPIがあるのであればお伺いしたいです。
有料でも月1、2万程度で利用できるものがあれば利用検討したいと思っています。

よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

なるほど!
大分、把握出来てきました。
機械学習は結構インフラ周りのお金がかかりますね。。
マイニングでGPUを何枚も差している様なのを見ると4枚挿しなんかもいけるのかなと思っていたんですが、難しいですか。。

投稿2022/06/08 01:58

kimrion

総合スコア24

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2022/06/08 10:13

> マイニングでGPUを何枚も差している様なのを見ると4枚挿しなんかもいけるのかなと思っていたんですが、難しいですか。。 普通のCPU一個で捌けるGPUの個数が限られていたはずです。昔はSLIで4枚差しがあったと思いますが、今は2枚差しまでだと思います。たぶんCPU一基で捌ける通信量(バス幅)的にGPUが高速化したので2枚までしかムリとかそういう話と思います。 これを超えようとすると、マザーボードにCPUを2つ積んだPCにGPU合計4枚(2枚刺し×2)みたいなことになるはずです。こういうことに対応しているPCはたいていXeon(インテルのサーバー用CPU、とにかく高い)で、メモリもBTOで外さない限りECC付メモリ(やっぱり高い)、みたいなのになります。金額は分かりかねますが、CPU十万円超、GPU10万円×4、超高速メモリ●十GB●十万円、合計50~100万円、電気はドライヤー並みの700-1000kWhみたいなのになるはずです。自宅でやると電気代もたいへんなことになります。 ご察しの通りやるならクラウドの方がよいかと…。
退会済みユーザー

退会済みユーザー

2022/06/08 10:14

> マイニングでGPUを何枚も差している様なのを見ると4枚挿しなんかもいけるのかなと思っていたんですが、難しいですか。。 普通のCPU一個で捌けるGPUの個数が限られていたはずです。昔はSLIで4枚差しがあったと思いますが、今は2枚差しまでだと思います。たぶんCPU一基で捌ける通信量(バス幅)的にGPUが高速化したので2枚までしかムリとかそういう話と思います。 これを超えようとすると、マザーボードにCPUを2つ積んだPCにGPU合計4枚(2枚刺し×2)みたいなことになるはずです。こういうことに対応しているPCはたいていXeon(インテルのサーバー用CPU、とにかく高い)で、メモリもBTOで外さない限りECC付メモリ(やっぱり高い)、みたいなのになります。金額は分かりかねますが、CPU十万円超、GPU10万円×4、超高速メモリ●十GB●十万円、合計50~100万円、電気はドライヤー並みの700-1000kWhみたいなのになるはずです。自宅でやると電気代もたいへんなことになります。 ご察しの通りやるならクラウドの方がよいかと…。
退会済みユーザー

退会済みユーザー

2022/06/08 10:15

> マイニングでGPUを何枚も差している様なのを見ると4枚挿しなんかもいけるのかなと思っていたんですが、難しいですか。。 普通のCPU一個で捌けるGPUの個数が限られていたはずです。昔はSLIで4枚差しがあったと思いますが、今は2枚差しまでだと思います。たぶんCPU一基で捌ける通信量(バス幅)的にGPUが高速化したので2枚までしかムリとかそういう話と思います。 これを超えようとすると、マザーボードにCPUを2つ積んだPCにGPU合計4枚(2枚刺し×2)みたいなことになるはずです。こういうことに対応しているPCはたいていXeon(インテルのサーバー用CPU、とにかく高い)で、メモリもBTOで外さない限りECC付メモリ(やっぱり高い)、みたいなのになります。金額は分かりかねますが、CPU十万円超、GPU10万円×4、超高速メモリ●十GB●十万円、合計50~100万円、電気はドライヤー並みの700-1000kWhみたいなのになるはずです。自宅でやると電気代もたいへんなことになります。 ご察しの通りやるならクラウドの方がよいかと…。
退会済みユーザー

退会済みユーザー

2022/06/08 10:16

> マイニングでGPUを何枚も差している様なのを見ると4枚挿しなんかもいけるのかなと思っていたんですが、難しいですか。。 普通のCPU一個で捌けるGPUの個数が限られていたはずです。昔はSLIで4枚差しがあったと思いますが、今は2枚差しまでだと思います。たぶんCPU一基で捌ける通信量(バス幅)的にGPUが高速化したので2枚までしかムリとかそういう話と思います。 これを超えようとすると、マザーボードにCPUを2つ積んだPCにGPU合計4枚(2枚刺し×2)みたいなことになるはずです。こういうことに対応しているPCはたいていXeon(インテルのサーバー用CPU、とにかく高い)で、メモリもBTOで外さない限りECC付メモリ(やっぱり高い)、みたいなのになります。金額は分かりかねますが、CPU十万円超、GPU10万円×4、超高速メモリ●十GB●十万円、合計50~100万円、電気はドライヤー並みの700-1000kWhみたいなのになるはずです。自宅でやると電気代もたいへんなことになります。 ご察しの通りやるならクラウドの方がよいかと…。
退会済みユーザー

退会済みユーザー

2022/06/08 10:16

> マイニングでGPUを何枚も差している様なのを見ると4枚挿しなんかもいけるのかなと思っていたんですが、難しいですか。。 普通のCPU一個で捌けるGPUの個数が限られていたはずです。昔はSLIで4枚差しがあったと思いますが、今は2枚差しまでだと思います。たぶんCPU一基で捌ける通信量(バス幅)的にGPUが高速化したので2枚までしかムリとかそういう話と思います。 これを超えようとすると、マザーボードにCPUを2つ積んだPCにGPU合計4枚(2枚刺し×2)みたいなことになるはずです。こういうことに対応しているPCはたいていXeon(インテルのサーバー用CPU、とにかく高い)で、メモリもBTOで外さない限りECC付メモリ(やっぱり高い)、みたいなのになります。金額は分かりかねますが、CPU十万円超、GPU10万円×4、超高速メモリ●十GB●十万円、合計50~100万円、電気はドライヤー並みの700-1000kWhみたいなのになるはずです。自宅でやると電気代もたいへんなことになります。 ご察しの通りやるならクラウドの方がよいかと…。
退会済みユーザー

退会済みユーザー

2022/06/08 10:17

> マイニングでGPUを何枚も差している様なのを見ると4枚挿しなんかもいけるのかなと思っていたんですが、難しいですか。。 普通のCPU一個で捌けるGPUの個数が限られていたはずです。昔はSLIで4枚差しがあったと思いますが、今は2枚差しまでだと思います。たぶんCPU一基で捌ける通信量(バス幅)的にGPUが高速化したので2枚までしかムリとかそういう話と思います。 これを超えようとすると、マザーボードにCPUを2つ積んだPCにGPU合計4枚(2枚刺し×2)みたいなことになるはずです。こういうことに対応しているPCはたいていXeon(インテルのサーバー用CPU、とにかく高い)で、メモリもBTOで外さない限りECC付メモリ(やっぱり高い)、みたいなのになります。金額は分かりかねますが、CPU十万円超、GPU10万円×4、超高速メモリ●十GB●十万円、合計50~100万円、電気はドライヤー並みの700-1000kWhみたいなのになるはずです。自宅でやると電気代もたいへんなことになります。 ご察しの通りやるならクラウドの方がよいかと…。
退会済みユーザー

退会済みユーザー

2022/06/08 10:17

> マイニングでGPUを何枚も差している様なのを見ると4枚挿しなんかもいけるのかなと思っていたんですが、難しいですか。。 普通のCPU一個で捌けるGPUの個数が限られていたはずです。昔はSLIで4枚差しがあったと思いますが、今は2枚差しまでだと思います。たぶんCPU一基で捌ける通信量(バス幅)的にGPUが高速化したので2枚までしかムリとかそういう話と思います。 これを超えようとすると、マザーボードにCPUを2つ積んだPCにGPU合計4枚(2枚刺し×2)みたいなことになるはずです。こういうことに対応しているPCはたいていXeon(インテルのサーバー用CPU、とにかく高い)で、メモリもBTOで外さない限りECC付メモリ(やっぱり高い)、みたいなのになります。金額は分かりかねますが、CPU十万円超、GPU10万円×4、超高速メモリ●十GB●十万円、合計50~100万円、電気はドライヤー並みの700-1000kWhみたいなのになるはずです。自宅でやると電気代もたいへんなことになります。 ご察しの通りやるならクラウドの方がよいかと…。
guest

0

ベストアンサー

他に良いライブラリやAPIがあるのであればお伺いしたいです。

https://tosaka-mn.hatenablog.com/entry/2020/06/12/210034
相当早くなるようです。SOTAは常に塗り替えられていくので、ハード面にこだわるのはあまり得策でない気がします。

もし5000〜1万文字の音声合成をしようとするとどれくらいの処理時間がかかるイメージなのでしょうか?またサーバースペックが結構必要になる物なのでしょうか?

投稿した処理の金額の質問でちゃんとした回答をできる人は
・ 日本語話者
・ 同時接続者数100人以上に耐えられるGPU(or TPU)サーバー持ち(or主)
・ 音声生成モデルに詳しい(使ったことがある)
・ しかもTeratailのアカウントあり
控えめに言ってほとんどいなさそうです。

金額や時間の算出にフェルミ推定をします。

一回の処理にかかる時間

https://tosaka-mn.hatenablog.com/entry/2020/06/12/210034
・ 大体ひらがな10文字分の音声を生成するのに、GeForce GTX 1080Tiでだいたい2秒かかる
・ テキスト10000文字なら、GeForce GTX 1080Tiで5000秒(83分)かかる。
・ 83分の処理を20分くらいに抑えようとすると、GeForce GTX 1080Ti×4はいる。
※SLIでは四枚刺しはたぶんムリですね…

GPUの選定

・ GTX 1080Ti×4は現実的ではないのでどれくらいのスペックがいるかを探ります。
・ NTTによればGTX 1080Ti×1.5倍≒RTX2080tiのようです。
・ つまり、83分の処理を20分くらいにするには、RTX2080tiであれば2.5枚くらいで済みます。ちょっと現実味が出てきました。
・ まだ現実味がないのでガチのGPUに換算しましょう。同じくNTTによればRTX2080ti×2≒A100なので、83分の処理を20分くらいにするには、A100であれば1台で済みそうです。

参考:GTX1080TiやRTX2080Tiは品切れ前で十万前後だったと思いますが、A100はさらにゼロが一個ついてもまだ足りません。

金額の算出

・ 広く使われているGoogle ColabではA100がサポートされていないようです。ですので、妥協して*下位のV100を一か月借りたとしましょう。
*妥協といっても「ロールスロイスのファントムに乗れないなら、Sクラスのメルセデスちゃんでいいわ」、くらいの内容です。
・ まとめサイトによれば、Google Colab Pro+ならだいたい月5300円だそうです。V100はA100より遅いので、レスポンスを良くするならもっといい環境が必要になると思います。ですので、金額的にはこれが最低ラインと思った方がいいです。

(同時で処理するユーザー数によるかと思いますが、一旦同時で処理するのが100人くらいだとして)

・ 割引もあるかもしれませんが、100人が同時にアクセスするのであれば5300×100=53万円/月 以上が必要になります。※1つのGPUで効率よく並列処理がうまくいくなら、そこまでGPUを並べる必要はないかもしれません。
・ 調べればわかりますが、買うとなるとGPU単体でも高いですし、組み上げたPC一基だけでドライヤー数台分くらいの電気が必要ですし、そんなのをいくつも並べれば既に立派なデータセンターですので、イカツイ設備(冷却設備、キュービクルのような高圧での受電設備)が必要になってきます。建物は鉄筋コンクリート、場所は地震があっても洪水があっても浸水しないような地域に建てる、など工夫がいりそうです。消防設備はたぶんハロゲンでないとまずいですよね…。なんてやっていくと、設備業者ではないのでどんぶり勘定もいいところですが、建物だけで安くて数千万、現実的には数億の投資が必要そうです。クラウド以外ではちょっと考えにくいですよね…。

投稿2022/06/04 00:14

編集2022/06/04 00:25
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問