やりたいこととしては、言語はpython、tensorflowとpytorchを使用して書かれているtext to speechを行うディープラーニングモデル(tacotron2 https://github.com/NVIDIA/tacotron2)
をGPUの使えるクラウド上で推論させ、unityからtextの入力を送り、音声データの推論結果を受け取りたいのですが、それを実現するにはどのような選択肢があるのでしょうか?
合成される音声データはwav形式で、長くても20秒ほどのものです。
また、クラウド上で行うのはテキストを受け取って音声合成結果の推論だけで、学習モデルなどはすでに手元にある状態なので学習は行いません。
今のところ考えているのはazure functionsにモデルをデプロイし、unityでhttpリクエストを送り結果を受け取るコードを書こうと考えているのですが、より良い方法としてはどのようなものがあるのでしょうか。
ここで言う良い方法というのはかかる値段よりも必要なプログラミングやデプロイの簡単さ、手軽さを重視してより簡単に実現できるものが知りたいです。
あなたの回答
tips
プレビュー