他に良いライブラリやAPIがあるのであればお伺いしたいです。
https://tosaka-mn.hatenablog.com/entry/2020/06/12/210034
相当早くなるようです。SOTAは常に塗り替えられていくので、ハード面にこだわるのはあまり得策でない気がします。
もし5000〜1万文字の音声合成をしようとするとどれくらいの処理時間がかかるイメージなのでしょうか?またサーバースペックが結構必要になる物なのでしょうか?
投稿した処理の金額の質問でちゃんとした回答をできる人は
・ 日本語話者
・ 同時接続者数100人以上に耐えられるGPU(or TPU)サーバー持ち(or主)
・ 音声生成モデルに詳しい(使ったことがある)
・ しかもTeratailのアカウントあり
控えめに言ってほとんどいなさそうです。
金額や時間の算出にフェルミ推定をします。
一回の処理にかかる時間
https://tosaka-mn.hatenablog.com/entry/2020/06/12/210034
・ 大体ひらがな10文字分の音声を生成するのに、GeForce GTX 1080Tiでだいたい2秒かかる
・ テキスト10000文字なら、GeForce GTX 1080Tiで5000秒(83分)かかる。
・ 83分の処理を20分くらいに抑えようとすると、GeForce GTX 1080Ti×4はいる。
※SLIでは四枚刺しはたぶんムリですね…
GPUの選定
・ GTX 1080Ti×4は現実的ではないのでどれくらいのスペックがいるかを探ります。
・ NTTによればGTX 1080Ti×1.5倍≒RTX2080tiのようです。
・ つまり、83分の処理を20分くらいにするには、RTX2080tiであれば2.5枚くらいで済みます。ちょっと現実味が出てきました。
・ まだ現実味がないのでガチのGPUに換算しましょう。同じくNTTによればRTX2080ti×2≒A100なので、83分の処理を20分くらいにするには、A100であれば1台で済みそうです。
参考:GTX1080TiやRTX2080Tiは品切れ前で十万前後だったと思いますが、A100はさらにゼロが一個ついてもまだ足りません。
金額の算出
・ 広く使われているGoogle ColabではA100がサポートされていないようです。ですので、妥協して*下位のV100を一か月借りたとしましょう。
*妥協といっても「ロールスロイスのファントムに乗れないなら、Sクラスのメルセデスちゃんでいいわ」、くらいの内容です。
・ まとめサイトによれば、Google Colab Pro+ならだいたい月5300円だそうです。V100はA100より遅いので、レスポンスを良くするならもっといい環境が必要になると思います。ですので、金額的にはこれが最低ラインと思った方がいいです。
(同時で処理するユーザー数によるかと思いますが、一旦同時で処理するのが100人くらいだとして)
・ 割引もあるかもしれませんが、100人が同時にアクセスするのであれば5300×100=53万円/月 以上が必要になります。※1つのGPUで効率よく並列処理がうまくいくなら、そこまでGPUを並べる必要はないかもしれません。
・ 調べればわかりますが、買うとなるとGPU単体でも高いですし、組み上げたPC一基だけでドライヤー数台分くらいの電気が必要ですし、そんなのをいくつも並べれば既に立派なデータセンターですので、イカツイ設備(冷却設備、キュービクルのような高圧での受電設備)が必要になってきます。建物は鉄筋コンクリート、場所は地震があっても洪水があっても浸水しないような地域に建てる、など工夫がいりそうです。消防設備はたぶんハロゲンでないとまずいですよね…。なんてやっていくと、設備業者ではないのでどんぶり勘定もいいところですが、建物だけで安くて数千万、現実的には数億の投資が必要そうです。クラウド以外ではちょっと考えにくいですよね…。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2022/06/08 10:13
退会済みユーザー
2022/06/08 10:14
退会済みユーザー
2022/06/08 10:15
退会済みユーザー
2022/06/08 10:16
退会済みユーザー
2022/06/08 10:16
退会済みユーザー
2022/06/08 10:17
退会済みユーザー
2022/06/08 10:17