pythonでfft時にエラーが出て困っています。

前提・実現したいこと

cycleganで行った声質変換がノイズまみれだったのでhttps://watlab-blog.com/2019/05/20/spectrogram-piano/#STFTのサイトを参考に、fftをやり直していたのですが、以下のエラーが出て行き詰まってしまいました。

発生している問題・エラーメッセージ

Traceback (most recent call last):
  File "C:/Users/mounf/PycharmProjects/fft/main.py", line 17, in <module>
    time_array, acf = function.hanning(time_array, Fs, N_ave)
  File "C:\Users\mounf\PycharmProjects\fft\function.py", line 35, in hanning
    data_array[i] = data_array[i] * han        # 窓関数をかける
ValueError: operands could not be broadcast together with shapes (4096,2) (4096,)

該当のソースコード

python
1♯ここからfunction.py
2import numpy as np
3from scipy import signal
4from scipy import fftpack
5import soundfile as sf
6
7def wavload(path):
8    data, samplerate = sf.read(path)
9    return data, samplerate
10
11# オーバーラップ処理
12def ov(data, samplerate, Fs, overlap):
13    Ts = len(data) / samplerate                     # 全データ長
14    Fc = Fs / samplerate                            # フレーム周期
15    x_ol = Fs * (1 - (overlap / 100))               # オーバーラップ時のフレームずらし幅
16    N_ave = int((Ts - (Fc * (overlap / 100))) /\
17                (Fc * (1 - (overlap / 100))))       # 抽出するフレーム数（平均化に使うデータ個数）
18
19    array = []                                      # 抽出したデータを入れる空配列の定義
20
21    # forループでデータを抽出
22    for i in range(N_ave):
23        ps = int(x_ol * i)                          # 切り出し位置をループ毎に更新
24        array.append(data[ps:ps + Fs:1])            # 切り出し位置psからフレームサイズ分抽出して配列に追加
25        final_time = (ps + Fs)/samplerate           #切り出したデータの最終時刻
26    return array, N_ave, final_time                 # オーバーラップ抽出されたデータ配列とデータ個数、最終時間を戻り値にする
27
28
29# 窓関数処理（ハニング窓）
30def hanning(data_array, Fs, N_ave):
31    han = signal.hann(Fs)                           # ハニング窓作成
32    acf = 1 / (sum(han) / Fs)                       # 振幅補正係数(Amplitude Correction Factor)
33
34    # オーバーラップされた複数時間波形全てに窓関数をかける
35    for i in range(N_ave):
36        data_array[i] = data_array[i] * han        # 窓関数をかける
37
38    return data_array, acf
39
40
41# FFT処理
42def fft_ave(data_array, samplerate, Fs, N_ave, acf):
43    fft_array = []
44    fft_axis = np.linspace(0, samplerate, Fs)      # 周波数軸を作成
45    a_scale = aweightings(fft_axis)                # 聴感補正曲線を計算
46
47    # FFTをして配列にdBで追加、窓関数補正値をかけ、(Fs/2)の正規化を実施。
48    for i in range(N_ave):
49        fft_array.append(db\
50                        (acf * np.abs(fftpack.fft(data_array[i]) / (Fs / 2))\
51                        , 2e-5))
52
53    fft_array = np.array(fft_array) + a_scale      # 型をndarrayに変換し、A特性をかける
54    fft_mean = np.mean(fft_array, axis=0)          # 全てのFFT波形の平均を計算
55
56    return fft_array, fft_mean, fft_axis
57
58# リニア値からdBへ変換
59def db(x, dBref):
60    y = 20 * np.log10(x / dBref)                   # 変換式
61    return y                                       # dB値を返す
62
63# dB値からリニア値へ変換
64def idb(x, dBref):
65    y = dBref * np.power(10, x / 20)  # 変換式
66    return y  # リニア値を返す
67
68#聴感補正（A特性カーブ）
69def aweightings(f):
70    if f[0] == 0:
71        f[0] = 1
72    else:
73        pass
74    ra = (np.power(12194, 2) * np.power(f, 4)) / \
75         ((np.power(f, 2) + np.power(20.6, 2)) * \
76          np.sqrt((np.power(f, 2) + np.power(107.7, 2)) * \
77                  (np.power(f, 2) + np.power(737.9, 2))) * \
78          (np.power(f, 2) + np.power(12194, 2)))
79    a = 20 * np.log10(ra) + 2.00
80    return a
81♯ここまでfunction.py
82♯ここからmain.py
83import function
84import numpy as np
85from matplotlib import pyplot as plt
86
87path = 'a.wav'                       #ファイルパスを指定
88data, samplerate = function.wavload(path)   #wavファイルを読み込む
89x = np.arange(0, len(data)) / samplerate    #波形生成のための時間軸の作成
90
91# Fsとoverlapでスペクトログラムの分解能を調整する。
92Fs = 4096                                   # フレームサイズ
93overlap = 75                                # オーバーラップ率
94
95# オーバーラップ抽出された時間波形配列
96time_array, N_ave, final_time = function.ov(data, samplerate, Fs, overlap)
97
98# ハニング窓関数をかける
99time_array, acf = function.hanning(time_array, Fs, N_ave)
100
101# FFTをかける
102fft_array, fft_mean, fft_axis = function.fft_ave(time_array, samplerate, Fs, N_ave, acf)
103
104# スペクトログラムで縦軸周波数、横軸時間にするためにデータを転置
105fft_array = fft_array.T
106
107# ここからグラフ描画
108# グラフをオブジェクト指向で作成する。
109fig = plt.figure()
110ax1 = fig.add_subplot(111)
111
112# データをプロットする。
113im = ax1.imshow(fft_array, \
114                vmin = -10, vmax = 60,
115                extent = [0, final_time, 0, samplerate], \
116                aspect = 'auto',\
117                cmap = 'jet')
118
119# カラーバーを設定する。
120cbar = fig.colorbar(im)
121cbar.set_label('SPL [dBA]')
122
123# 軸設定する。
124ax1.set_xlabel('Time [s]')
125ax1.set_ylabel('Frequency [Hz]')
126
127# スケールの設定をする。
128ax1.set_xticks(np.arange(0, 120, 2))
129ax1.set_yticks(np.arange(0, 20000, 1000))
130ax1.set_xlim(0, 14)
131ax1.set_ylim(0, 4000)
132
133# グラフを表示する。
134plt.show()
135plt.close()

試したこと

対応する次元は同じか1でなければいけない、というルールに反しているためだと考えたのですが、どうやってそれを直すかが分からず、困っています。

補足情報（FW/ツールのバージョンなど）

numpy==1.17.0
scipy==1.3.1
SoundFile==0.10.2
matplotlib==3.1.1

行動規範の内容に同意します

回答1件

自己解決

data, samplerate = function.wavload(path) #wavファイルを読み込む
と
x = np.arange(0, len(data)) / samplerate #波形生成のための時間軸の作成
の間に
♯ステレオ2chの場合、LchとRchに分割 data_l = data[:, 0] data_r = data[:, 1] ♯ 入力をモノラル化 data = (0.5 * data_l) + (0.5 * data_r)
を入れて解決しました。

投稿2019/10/22 13:03

RyotaYamada

総合スコア6