気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答1件
0
ベストアンサー
マイナスになるのは、たまたまです。mfccの0次元目はパワーを表しますが、パワーがマイナスに出るかプラスにでるかは、入力信号によります。デジタル音響は、最大出力を0dBとして、マイナスパワーで表現することが多いためかもしれません。
なお、音響のパワーは適当な基準値を1として比率の対数をとった値ですので、相対的なものであり、互いの差だけが意味を持ちます。値そのものがプラスなのかマイナスなのかに、本質的な意味はありません。
実際、こちらのサンプルファイルをもとにmfccを求めてみます。すると確かにマイナスの値が並びます。
Python
1import librosa 2import soundfile 3 4x, fs = soundfile.read('sample.wav') # サンプルファイル名を指定してください 5x = x.mean(axis=1) # モノラル化 6mfcc = librosa.feature.mfcc(x, sr=fs) 7print(mfcc[0]) 8 9# 出力 10# [-350.36566677 -333.65622376 -315.14153639 -288.22497186 -245.22038702 11# -194.41525383 -182.3683437 -187.80063673 -184.86709609 -172.53801819 12# 以下略
しかし、以下のように、人工的にwavファイルの振幅を拡大してあげると、プラスに転じます。
Python
1import librosa 2import soundfile 3 4x, fs = soundfile.read('sample.wav') # サンプルファイル名を指定してください 5x = x.mean(axis=1) # モノラル化 6x *= 100 7mfcc = librosa.feature.mfcc(x, sr=fs) 8print(mfcc[0]) 9 10# 出力 11# [102.18267319 118.8921162 137.40680357 164.3233681 207.32795294 12# 258.13308613 270.17999626 264.74770323 267.68124386 280.01032176 13# 以下略
投稿2021/05/18 11:26
編集2021/05/18 11:31総合スコア3266
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/05/18 12:48