WAVファイルの数値変換ライブラリやパッケージをしりたい
画像ファイルならば「PIL」
**WAVファイルならば「○○」**というライブラリやパッケージを紹介していただきたい
「画像ファイルとPILで行った処理」の音声ファイル版を行いたい
PILを利用して28×28画像を(28,28)に変換・取得したのですが、WAVファイルでそのような数値変換を行いたいです。
今後の目的…0~9を日本語の発音で認識し、0~9を数値でアウトプットしたい(あくまで「今後」の目的なので今回求めている質問内容はWAVファイルの数値変換方法です)
””””””
下記の引用リンク
音声というのは元々は連続的な情報ですが、今回の処理では離散的な情報に変換する必要があります。
音声処理におけるサンプリングは、アナログ信号から1秒間に一定のサンプル数を選択して、アナログ信号をデジタル信号に変換する処理です。
ここで、1秒間に取る数値のサンプル数をsampling rateと呼びます。
Librosaではsampling rateをパラメータsrで自由に設定することができます。今回は一秒間に16000の数値を取るようにサンプリングしていきます。今回訓練データに使われている音声データのほとんどがちょうど1秒間の発話データなので、各データに対して16000の配列を得ることができます。
例えばcatの発話データからlibrosaを使ってサンプリングすると、16000の数値の配列を得ることができました。
”””””””
↑これらの処理をどのように行うべきかご教授いただきたいと思います。
類似した情報のリンクでも構いません。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー