前提・実現したいこと
cycleganで行った声質変換がノイズまみれだったのでhttps://watlab-blog.com/2019/05/20/spectrogram-piano/#STFTのサイトを参考に、fftをやり直していたのですが、以下のエラーが出て行き詰まってしまいました。
発生している問題・エラーメッセージ
Traceback (most recent call last): File "C:/Users/mounf/PycharmProjects/fft/main.py", line 17, in <module> time_array, acf = function.hanning(time_array, Fs, N_ave) File "C:\Users\mounf\PycharmProjects\fft\function.py", line 35, in hanning data_array[i] = data_array[i] * han # 窓関数をかける ValueError: operands could not be broadcast together with shapes (4096,2) (4096,)
該当のソースコード
python
1♯ここからfunction.py 2import numpy as np 3from scipy import signal 4from scipy import fftpack 5import soundfile as sf 6 7def wavload(path): 8 data, samplerate = sf.read(path) 9 return data, samplerate 10 11# オーバーラップ処理 12def ov(data, samplerate, Fs, overlap): 13 Ts = len(data) / samplerate # 全データ長 14 Fc = Fs / samplerate # フレーム周期 15 x_ol = Fs * (1 - (overlap / 100)) # オーバーラップ時のフレームずらし幅 16 N_ave = int((Ts - (Fc * (overlap / 100))) /\ 17 (Fc * (1 - (overlap / 100)))) # 抽出するフレーム数(平均化に使うデータ個数) 18 19 array = [] # 抽出したデータを入れる空配列の定義 20 21 # forループでデータを抽出 22 for i in range(N_ave): 23 ps = int(x_ol * i) # 切り出し位置をループ毎に更新 24 array.append(data[ps:ps + Fs:1]) # 切り出し位置psからフレームサイズ分抽出して配列に追加 25 final_time = (ps + Fs)/samplerate #切り出したデータの最終時刻 26 return array, N_ave, final_time # オーバーラップ抽出されたデータ配列とデータ個数、最終時間を戻り値にする 27 28 29# 窓関数処理(ハニング窓) 30def hanning(data_array, Fs, N_ave): 31 han = signal.hann(Fs) # ハニング窓作成 32 acf = 1 / (sum(han) / Fs) # 振幅補正係数(Amplitude Correction Factor) 33 34 # オーバーラップされた複数時間波形全てに窓関数をかける 35 for i in range(N_ave): 36 data_array[i] = data_array[i] * han # 窓関数をかける 37 38 return data_array, acf 39 40 41# FFT処理 42def fft_ave(data_array, samplerate, Fs, N_ave, acf): 43 fft_array = [] 44 fft_axis = np.linspace(0, samplerate, Fs) # 周波数軸を作成 45 a_scale = aweightings(fft_axis) # 聴感補正曲線を計算 46 47 # FFTをして配列にdBで追加、窓関数補正値をかけ、(Fs/2)の正規化を実施。 48 for i in range(N_ave): 49 fft_array.append(db\ 50 (acf * np.abs(fftpack.fft(data_array[i]) / (Fs / 2))\ 51 , 2e-5)) 52 53 fft_array = np.array(fft_array) + a_scale # 型をndarrayに変換し、A特性をかける 54 fft_mean = np.mean(fft_array, axis=0) # 全てのFFT波形の平均を計算 55 56 return fft_array, fft_mean, fft_axis 57 58# リニア値からdBへ変換 59def db(x, dBref): 60 y = 20 * np.log10(x / dBref) # 変換式 61 return y # dB値を返す 62 63# dB値からリニア値へ変換 64def idb(x, dBref): 65 y = dBref * np.power(10, x / 20) # 変換式 66 return y # リニア値を返す 67 68#聴感補正(A特性カーブ) 69def aweightings(f): 70 if f[0] == 0: 71 f[0] = 1 72 else: 73 pass 74 ra = (np.power(12194, 2) * np.power(f, 4)) / \ 75 ((np.power(f, 2) + np.power(20.6, 2)) * \ 76 np.sqrt((np.power(f, 2) + np.power(107.7, 2)) * \ 77 (np.power(f, 2) + np.power(737.9, 2))) * \ 78 (np.power(f, 2) + np.power(12194, 2))) 79 a = 20 * np.log10(ra) + 2.00 80 return a 81♯ここまでfunction.py 82♯ここからmain.py 83import function 84import numpy as np 85from matplotlib import pyplot as plt 86 87path = 'a.wav' #ファイルパスを指定 88data, samplerate = function.wavload(path) #wavファイルを読み込む 89x = np.arange(0, len(data)) / samplerate #波形生成のための時間軸の作成 90 91# Fsとoverlapでスペクトログラムの分解能を調整する。 92Fs = 4096 # フレームサイズ 93overlap = 75 # オーバーラップ率 94 95# オーバーラップ抽出された時間波形配列 96time_array, N_ave, final_time = function.ov(data, samplerate, Fs, overlap) 97 98# ハニング窓関数をかける 99time_array, acf = function.hanning(time_array, Fs, N_ave) 100 101# FFTをかける 102fft_array, fft_mean, fft_axis = function.fft_ave(time_array, samplerate, Fs, N_ave, acf) 103 104# スペクトログラムで縦軸周波数、横軸時間にするためにデータを転置 105fft_array = fft_array.T 106 107# ここからグラフ描画 108# グラフをオブジェクト指向で作成する。 109fig = plt.figure() 110ax1 = fig.add_subplot(111) 111 112# データをプロットする。 113im = ax1.imshow(fft_array, \ 114 vmin = -10, vmax = 60, 115 extent = [0, final_time, 0, samplerate], \ 116 aspect = 'auto',\ 117 cmap = 'jet') 118 119# カラーバーを設定する。 120cbar = fig.colorbar(im) 121cbar.set_label('SPL [dBA]') 122 123# 軸設定する。 124ax1.set_xlabel('Time [s]') 125ax1.set_ylabel('Frequency [Hz]') 126 127# スケールの設定をする。 128ax1.set_xticks(np.arange(0, 120, 2)) 129ax1.set_yticks(np.arange(0, 20000, 1000)) 130ax1.set_xlim(0, 14) 131ax1.set_ylim(0, 4000) 132 133# グラフを表示する。 134plt.show() 135plt.close()
試したこと
対応する次元は同じか1でなければいけない、というルールに反しているためだと考えたのですが、どうやってそれを直すかが分からず、困っています。
補足情報(FW/ツールのバージョンなど)
numpy==1.17.0
scipy==1.3.1
SoundFile==0.10.2
matplotlib==3.1.1
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。