前提・実現したいこと
音声解析初心者です。
raspberrypi4でlibrosaを用いてMFCCの抽出を行なっています。
機械学習に用いるため下のコード(他webページ参照)で表示されているように12次元で表示させたいのですが、n_mfccで返すmfccの数を設定しているにも関わらず、print(mfccs)では大量のデータが取れてします。
また、調べているとprint(mfccs[0])で表示されている方法が多いのですがそれは[0]はmfccの何を表している部分になるのでしょうか?
ご教授いただけますと幸いです。
表示させたい形式
from scipy.fftpack.realtransforms import dct ceps = dct(10 * log10(mspec), type=2, norm="ortho", axis=-1) nceps = 12 mfcc = ceps[:nceps] print(mfcc) [46.02737864 32.79920243 4.57031165 -2.94696774 -1.54742386 -1.26479934 -5.16211103 -0.62832775 5.74186803 4.19594078 0.79866862 -1.76984708]
現在のソースコード
python
1import librosa 2import soundfile as sf 3 4file_name='/home/pi/myEnv/hello2.wav' 5x,fs=sf.read(file_name) 6mfccs=librosa.feature.mfcc(x,sr=fs,n_mfcc=12,dct_type=2) 7print(mfccs.shape) 8print(mfccs)
現在の出力結果
補足情報(FW/ツールのバージョンなど)
参照したサイト
MFCC入門
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/05/24 15:27