質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1914閲覧

(TensorFlow・音声認識)任意のWAVファイルをmodelにinput出来るようにするための数値変換方法はどのようなものがあるでしょうか?

vibrato

総合スコア52

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/11/15 11:26

編集2020/11/15 13:38

WAVファイルの数値変換ライブラリやパッケージをしりたい

画像ファイルならば「PIL」
**WAVファイルならば「○○」**というライブラリやパッケージを紹介していただきたい

「画像ファイルとPILで行った処理」の音声ファイル版を行いたい

PILを利用して28×28画像を(28,28)に変換・取得したのですが、WAVファイルでそのような数値変換を行いたいです。

今後の目的…0~9を日本語の発音で認識し、0~9を数値でアウトプットしたい(あくまで「今後」の目的なので今回求めている質問内容はWAVファイルの数値変換方法です)

””””””
下記の引用リンク
音声というのは元々は連続的な情報ですが、今回の処理では離散的な情報に変換する必要があります。
音声処理におけるサンプリングは、アナログ信号から1秒間に一定のサンプル数を選択して、アナログ信号をデジタル信号に変換する処理です。
ここで、1秒間に取る数値のサンプル数をsampling rateと呼びます。
Librosaではsampling rateをパラメータsrで自由に設定することができます。今回は一秒間に16000の数値を取るようにサンプリングしていきます。今回訓練データに使われている音声データのほとんどがちょうど1秒間の発話データなので、各データに対して16000の配列を得ることができます。
例えばcatの発話データからlibrosaを使ってサンプリングすると、16000の数値の配列を得ることができました。
”””””””
↑これらの処理をどのように行うべきかご教授いただきたいと思います。

類似した情報のリンクでも構いません。
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

toast-uz

2020/11/15 12:28

「各データに対して16000の配列を得ることができます」ということで数値化はできています。その数値を分析したいのが次の目的だと思いますが、万能な分析手法というのはなく、何の目的で分析したいのかがわからなければ方法もアドバイスできないです。
vibrato

2020/11/15 12:39

can110様 そちらのURLのリンクを確認してみたのですが、音声データのパスでエラーを起こして、早々に躓いている段階です。 toast-uz様 >>何の目的で分析したいのかがわからなければ方法もアドバイスできないです。 質問を編集いたしました。よろしくお願いいたします。
guest

回答1

0

ベストアンサー

質問者様のやりたいことは、音声の多クラス分類という、比較的、機械学習が得意とする領域のものです。

まずは、既存のクラウドAPIを利用して、やりたいことができるかどうか試してみることをお勧めします。機械学習は実際のモデル学習〜推論よりも、前処理含めて全体をどのように調整するかが重要です。モデルの部分をできあいのものに頼ることで、全体を形作る力が養われます。有料とはいっても、少しだけ試してみるのでしたら、ほとんど無料みたいなレベルの金額です。

参考: 人気の音声認識APIトップ10

上記を必ず実施したか、実施できると同等の力を身につけたと思ったら、自らモデル構築することに取り組んでみても良いと思います。音声、多クラス分類、1次元CNN、sfftといったキーワードでググると、参考になる記事がいろいろあるでしょう。

参考: 音声分類を色々なモデルや特徴量でやってみた

ただし、このレベルを理解できるには、機械学習・深層学習といった分野の入門書を1冊読破してからでないと、辛いと思います。

補足

なお質問文に音声ファイルを取り込む手法が書かれているので、そこは大丈夫なのかと解釈しましたが、そこも含めて知りたいというご要望のこと、以下に補足しておきます。

Python公式のサウンドファイルの読み書き手法
Pysoundfileというもう少し高度なライブラリの利用例

投稿2020/11/15 13:13

編集2020/11/15 13:46
toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

vibrato

2020/11/15 13:37

アドバイスありがとうございます。今後、紹介いただいたリンクを参考にさせていただき勉強しようかと思いますが、今回はさらにそれ以前の話になるかなと思います。説明が不足して申し訳ありませんが、さらに編集させていただきましたので、よろしくお願いいたします。
toast-uz

2020/11/15 13:46

補足してみましたが、こんな情報でよいでしょうか?
vibrato

2020/11/16 00:23

ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問