(TensorFlow・音声認識）任意のWAVファイルをmodelにinput出来るようにするための数値変換方法はどのようなものがあるでしょうか？

WAVファイルの数値変換ライブラリやパッケージをしりたい

画像ファイルならば「PIL」
**WAVファイルならば「○○」**というライブラリやパッケージを紹介していただきたい

「画像ファイルとPILで行った処理」の音声ファイル版を行いたい

PILを利用して28×28画像を（28,28）に変換・取得したのですが、WAVファイルでそのような数値変換を行いたいです。

今後の目的…0～9を日本語の発音で認識し、0~9を数値でアウトプットしたい（あくまで「今後」の目的なので今回求めている質問内容はWAVファイルの数値変換方法です）

””””””
下記の引用リンク
音声というのは元々は連続的な情報ですが、今回の処理では離散的な情報に変換する必要があります。
音声処理におけるサンプリングは、アナログ信号から1秒間に一定のサンプル数を選択して、アナログ信号をデジタル信号に変換する処理です。
ここで、1秒間に取る数値のサンプル数をsampling rateと呼びます。
Librosaではsampling rateをパラメータsrで自由に設定することができます。今回は一秒間に16000の数値を取るようにサンプリングしていきます。今回訓練データに使われている音声データのほとんどがちょうど1秒間の発話データなので、各データに対して16000の配列を得ることができます。
例えばcatの発話データからlibrosaを使ってサンプリングすると、16000の数値の配列を得ることができました。
”””””””
↑これらの処理をどのように行うべきかご教授いただきたいと思います。

類似した情報のリンクでも構いません。
よろしくお願いいたします。

8524ba23

2020/11/15 11:39

https://github.com/yurikimura/AudioProcessing/blob/master/classifying.ipynb に具体的な処理コードがありますが、確認されたでしょうか？

toast-uz

2020/11/15 12:28

「各データに対して16000の配列を得ることができます」ということで数値化はできています。その数値を分析したいのが次の目的だと思いますが、万能な分析手法というのはなく、何の目的で分析したいのかがわからなければ方法もアドバイスできないです。

vibrato

2020/11/15 12:39

can110様そちらのURLのリンクを確認してみたのですが、音声データのパスでエラーを起こして、早々に躓いている段階です。 toast-uz様 >>何の目的で分析したいのかがわからなければ方法もアドバイスできないです。質問を編集いたしました。よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

質問者様のやりたいことは、音声の多クラス分類という、比較的、機械学習が得意とする領域のものです。

まずは、既存のクラウドAPIを利用して、やりたいことができるかどうか試してみることをお勧めします。機械学習は実際のモデル学習〜推論よりも、前処理含めて全体をどのように調整するかが重要です。モデルの部分をできあいのものに頼ることで、全体を形作る力が養われます。有料とはいっても、少しだけ試してみるのでしたら、ほとんど無料みたいなレベルの金額です。

参考: 人気の音声認識APIトップ10

上記を必ず実施したか、実施できると同等の力を身につけたと思ったら、自らモデル構築することに取り組んでみても良いと思います。音声、多クラス分類、1次元CNN、sfftといったキーワードでググると、参考になる記事がいろいろあるでしょう。

参考: 音声分類を色々なモデルや特徴量でやってみた

ただし、このレベルを理解できるには、機械学習・深層学習といった分野の入門書を1冊読破してからでないと、辛いと思います。

補足

なお質問文に音声ファイルを取り込む手法が書かれているので、そこは大丈夫なのかと解釈しましたが、そこも含めて知りたいというご要望のこと、以下に補足しておきます。

Python公式のサウンドファイルの読み書き手法
 Pysoundfileというもう少し高度なライブラリの利用例

投稿2020/11/15 13:13

編集2020/11/15 13:46

toast-uz

総合スコア3266