###現状
先日投稿した,
https://teratail.com/questions/73993
に近い質問です.
docomoの音声合成APIを使用して,Unity上のキャラクタに話させたいと思っています.
このAPIから出力された音声データ(バイナリデータ)が
以下のプログラムを通して,www.bytesに格納されています(と思っています).
string url = "https://api.apigw.smt.docomo.ne.jp/aiTalk/v1/textToSpeech?APIKEY=" + docomoApiKey; Dictionary<string, string> aiTalksParams = new Dictionary<string, string> (); aiTalksParams["speaker"] = "nozomi"; aiTalksParams["pitch"] = "1"; aiTalksParams["range"] = "1"; aiTalksParams["rate"] = "1"; aiTalksParams["volume"] = "1.5"; string text = inputText; var postData = createSsml(text, aiTalksParams); var data = System.Text.Encoding.UTF8.GetBytes(postData); Dictionary<string, string> headers = new Dictionary<string, string> (); headers["Content-Type"] = "application/ssml+xml"; headers["Accept"] = "audio/L16"; headers["Content-Length"] = data.Length.ToString(); WWW www = new WWW(url, data, headers); yield return www; if (www.error != null) { Debug.LogError(www.error); yield break; }
音声データの形式がBinaryで
音声データのフォーマットは下記の通りです.
【符号化方式】
リニアPCM
【チャネル数】
1(モノラル)
【サンプル周波数】
16000
【ビット深度】
16bit(ビッグエンディアン)
###問題点
www.bytesのbyte[]型のデータをwavファイルに変換して保存し,それをUnityのAudioClipにして再生したいと考えています.
ビッグエンディアンからリトルエンディアンへの変換は
byte[] lEndianBytes = ConvertBytesEndian(www.bytes); // http://wawatete.ddo.jp/exec/program/cs/binary_convertendian.html static byte[] ConvertBytesEndian(byte[] bytes) { // 引数の配列と同じサイズの配列を宣言 byte[] newBytes = new byte[bytes.Length]; // 配列のコピーを作成 bytes.CopyTo(newBytes, 0); // 反転 System.Array.Reverse(newBytes); return newBytes; }
としてます.
また,そのデータをちゃんとしたヘッダ情報のあるwavファイルにするために,
[StructLayout(LayoutKind.Sequential)] public class WAVHDR { [MarshalAs(UnmanagedType.I4)] public UInt32 riff = 0x46464952; /* RIFF */ [MarshalAs(UnmanagedType.I4)] public UInt32 fileSize; [MarshalAs(UnmanagedType.I4)] public UInt32 wave = 0x45564157; /* WAVE */ [MarshalAs(UnmanagedType.I4)] public UInt32 fmt = 0x20746D66; /* fmt */ [MarshalAs(UnmanagedType.I4)] public UInt32 fmtbytes = 16; [MarshalAs(UnmanagedType.I2)] public UInt16 formatid; [MarshalAs(UnmanagedType.I2)] public UInt16 channel; [MarshalAs(UnmanagedType.I4)] public UInt32 fs; [MarshalAs(UnmanagedType.I4)] public UInt32 bytespersec; [MarshalAs(UnmanagedType.I2)] public UInt16 blocksize; [MarshalAs(UnmanagedType.I2)] public UInt16 bitspersample; [MarshalAs(UnmanagedType.I4)] public UInt32 data = 0x61746164; /* data */ [MarshalAs(UnmanagedType.I4)] public UInt32 size; //convert the struct to byte array public byte[] getByteArray() { int len = Marshal.SizeOf(this); byte[] arr = new byte[len]; IntPtr ptr = Marshal.AllocHGlobal(len); Marshal.StructureToPtr(this, ptr, true/*or false*/); Marshal.Copy(ptr, arr, 0, len /*or arr.Length*/); Marshal.FreeHGlobal(ptr); return arr; } } WAVHDR wavHdr = new WAVHDR(); // wavファイルに格納 uint fs = 16000; // 16K wavHdr.formatid = 0x0001; //PCM 非圧縮 wavHdr.channel = 1; // ch=1 モノラル wavHdr.fs = fs; // wavHdr.bytespersec = fs * 2; // 16bit 16K wavHdr.blocksize = 2; // ブロックサイズ (Byte/sample×チャンネル数)->→16ビットモノラルなので 2 wavHdr.bitspersample = 16; // サンプルあたりのビット数 (bit/sample) wavHdr.size = 10 * fs * 2; // 波形データのバイト数 wavHdr.fileSize = wavHdr.size + (uint)Marshal.SizeOf(wavHdr); // 全体のバイト数
としてます.
そのヘッダ情報と音声データをwavに保存するために,
PrepareFile(wavHdr, lEndianBytes); private void PrepareFile(WAVHDR hdr, byte[] databuf) { using (FileStream fs = new FileStream("sample.wav", FileMode.Create, FileAccess.Write)) using (BinaryWriter bWriter = new BinaryWriter(fs)) { // ヘッダ書きだし foreach(byte b in hdr.getByteArray()) { bWriter.Write(b); } // 波形書きだし foreach(Int16 data in databuf) { bWriter.Write(data); } bWriter.Flush(); bWriter.Close(); fs.Close(); } }
つぎはぎのコードになってしまい,すみません.
###問題点
これにより,実際にsample.wavは生成されますが,雑音しか聞こえてきません.
・PCMデータとして取得
・ビッグエンディアンからリトルエンディアンへの変換
・wavファイルへの保存
という流れは,pythonで書いたものは動いていたので流れはこれで良いと思います.それをUnityで使用するC#に移行しようとした際にうまく言っていない状況です.
ただ,目的達成には,wavファイルとして保存する必要がないので,それを飛ばせる方法等があればそれでもいいです.
お力添え願います.
###補足情報(言語/FW/ツール等のバージョンなど)
OS: Ubuntu14.04
Unity: 5.4
Language: C#
API: docomo音声合成API

回答4件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。