bandpassフィルタを使ってもcsvファイルのサイズが小さくならない

2021/01/06 12:38

> 時間的にも効率的に音声分離させるために、データサイズを小さくするべくが具体的に何を意味してるのかによって、やることが変わります・csvを貯めるハードディスクの容量を節約したい・pythonがcsvを読む速度を上げたい・pythonが計算するときに使うメモリーの容量を節約したい/pythonの計算速度を上げたい・他

2021/01/06 12:44

機械学習させる際に学習時間を短縮したいと思ったのですが、そもそもwavファイルは形式上ファイル処理でデータ圧縮が不可能であるということがわかりました。

2021/01/06 12:54 編集

学習時間に関係するのは、音声ファイルのサイズではなく、pythonが扱うサイズですよだから、mp3とかの圧縮可能なファイル形式を選んでwavの代わりに使っても、その音声ファイルをpythonが読んでからの、学習時にpythonが扱うデータ、たとえばnumpy配列のサイズが変わらなければ、学習時間は変わりませんよ pythonが音声を取り込んだ後のデータサイズは、サンプリングレートx録音時間xBITxチャンネルなので、たとえば 44kHzの16bitのステレオ音声が30秒、と決めたらデータ量は同じですそれを減らすには、ローパスフィルタを通して高周波成分を無くしてからサンプリングレート(44kHz)を下げるとか、量子化のbitを減らすとか、ステレオをモノラルにするとか、録音時間を短くするとかしないと音声ファイルのサイズと、pythonが学習時に扱うデータのサイズは、別です音声ファイルを小さくしたからといって、pythonが学習時に扱うデータのサイズが減るわけではないので、学習時間も減りません

2021/01/06 13:35

すいません。まだpythonで扱うサイズというものがピンとこないです。また、データサイズを減らす方法として、最初にローパスフィルタを通す理由は何なのでしょうか。

2021/01/08 05:28

> pythonで扱うサイズというものがピンとこない下記を実行してみてください wav_filename="wavファイル名" import scipy.io.wavfile rate, data = scipy.io.wavfile.read(wav_filename) print(data.dtype) # 配列の型 print(data.shape) # 配列のサイズ print(rate) # サンプリングレート print(data.shape[0]/rate) # 音声ファイルの録音時間と一致その結果を見ると分かるように、音声ファイルの録音時間とサンプリングレートによって、音声データを格納する配列のサイズは決まってしまいますモノラルだと録音時間xサンプリングレート、ステレオだとその2倍ですまた、配列の型も、音声データの量子化BITで決まります「pythonで扱うサイズ」とは、その配列の型とサイズのことです録音時間、サンプリングレート、BITが全く同じでも、録音されてる音はいろいろですよね騒がしい音楽が録音されてるかもしれないし、ずーーーっと無音かもしれないそのどちらでも、録音時間、サンプリングレート、BITが同じなら、Pythonがそのデータを保持するのに必要な配列の型とサイズは同じなんですよ配列の型とサイズが同じならば、それを使う学習に必要なメモリー量や演算量は変わりませんだから、音声にフィルタをかけたりいろいろ処理しても、録音時間、サンプリングレート、BITが変わらないなら、質問者さんが狙ってるような効果はありません

2021/01/08 05:38

> データサイズを減らす方法として、最初にローパスフィルタを通す理由ローパスフィルタ無しでサンプリングレートを下げると、折り返しノイズが発生するからです http://www.murmur-lab.com/2019/02/19/downsampling/

2021/01/11 11:15

返信が遅くなり申し訳ありません。詳しい説明をいただきありがとうございます。こちらの説明でpythonで扱うサイズを理解することができました。

行動規範の内容に同意します

回答2件

ベストアンサー

圧縮というのは符号化と呼ばれる情報量が同じものを省略して書く行為によってデータ量を少なくしたり、いらないデータをそもそも書き込まないことによって実現できるものです。フィルターと圧縮は、圧縮方式によっては関係があります。例えば jpeg 画像です。jpeg 画像は写真には高調波成分が少ないことを利用し高調波を捨てることによってデータ量を抑えています。

MP3 も同じ仕組みです。実際にはもっと複雑な手法が使われていますが、大雑把に言えばいらない周波数成分をカットしています。そして大事なのが符号化です。iface さんの場合そのまま wav 形式で書き込んでいますから、何の省略もせず保存してしまっているのです。しかしこれを勝手に符号化するわけにも行きません。wav は符号化形式が決まっているからです。

これを解決するには「自分で音声ファイルフォーマットを作ってしまう」これしかありません。しかしこれはあまりにも非現実的な解決方法と言えるでしょう。そこで考えたいのは「ogg などの既存の形式に対してパラメーターを機械学習により求め最適な圧縮を行う」です。これならファイル形式を考える必要がありませんし、誰でも再生することが出来ます。

投稿2021/01/06 10:18

総合スコア2853

2021/01/06 11:40

なるほどですね。詳しい説明ありがとうございます。「ogg などの既存の形式に対してパラメーターを機械学習により求め最適な圧縮を行う」という方法ですが、少し時間がかかってしまいそうなので、A_kirisakiさんの回答を基に自分なりに方法考えたのですが、「コーディック（今回はMP3を使おうと思っています）を用いてデータサイズをできる限り小さくしてまたwavファイルに戻す」というのはどうでしょうか。

2021/01/06 11:47

wav ファイルにしてしまった時点で元通りですねー。wav ファイルというのは何も加工を加えていない「生の」音声ファイルなので別の圧縮方式で圧縮したとして同じ時間、同じサンプリングレートの音声とサイズは同じになります。画像で言うと bmp みたいなものだと思ってください。あれはわかりやすいんですが真っ白な画像でもサイズ分 0xFF で埋められてます。同じように wav ファイルもたとえ無音だったとしても無音のデータがずっと続くのです。なので wav に戻してしまっては意味がないのですね。

2021/01/06 12:23

そうなんですね。では、MP3から直接csvファイルにするとサイズは小さくなると思うのですがどうでしょうか。

2021/01/06 12:33

それは多分そうだと思いますが、きれいに csv になる形式ではないと思います。wav が csv にきれいに変換できるのは波形の情報を余すことなく残しているからです。MP3 のフレームを csv に書き出したとしてもそれだけでは波形の情報を得られず何の意味もないでしょう。

2021/01/06 12:39

MP3では波形の情報は得られないのですね。では、ogg などの既存の形式に対してパラメーターを機械学習により求め最適な圧縮を行う方法の詳しい説明をいただいてもよろしいでしょうか。