### 前提・実現したいこと Pytorchを使って音の分離を行うモデルを作っています。前処理としてwavファイルからスペクトログラムに変換しているところです。 pytorchのtorchaudioというライブラリを使ってスペクトログラムに変換しています。エラーはないのですが、返り値が周波数成分の強さ、周波数、ウィンドウのホップ数の3次元のテンソルが返されます。スペクトログラムを時間ごとに見たいのですが、このホップ数を時間に変更する方法が分かりません。 ### 発生している問題・エラーメッセージ ### 該当のソースコード ```Python filename = "/content/drive/MyDrive/肺音/TrainingCD/coarse_crackle/67/TRACK67_11k.WAV" #waveread waveform, Fs = torchaudio.load(filename) """ nt = min(2^17, 2^(nextpow2(len(waveform.T))-1)) waveform = waveform[1:nt] waveform = waveform / max(waveform) * 0.4 """ print(waveform) print("Shape of waveform: {}".format(waveform.size())) print("Sample rate of waveform: {}".format(Fs)) print(len(waveform.T)) t = np.arange(len(waveform.T))/Fs plt.xlabel("time [s]") plt.ylabel("amplitude") #plt.xlim(0,len(waveform.T)/Fs) plt.plot(t, waveform.t().numpy()) plt.show() #transform spectrogram nfft = 2048 windowsize = nfft offset = windowsize // 4 print(offset) D = torchaudio.transforms.Spectrogram(nfft, windowsize, offset)(waveform) #D = torchaudio.transforms.Spectrogram()(waveform) print("Shape of spectrogram: {}".format(D.size())) [l, m, n] = D.size() plt.figure() plt.imshow(D.log2()[0,:,:].numpy(), origin='lower') plt.xlabel("time [s]") plt.ylabel("frequency [Hz]") ``` ### 試したこと imshowの際にwaveformを時間に変換したものをDと一緒に与えてみたのですが、Dがすでに3次元のテンソルのためエラーが返されます。また、参考にできるコードが公式のチュートリアルしかなく、チュートリアルでは解決できませんでした。 ### 補足情報（FW/ツールのバージョンなど） google colab

> このホップ数を時間に変更する方法 Dの三つ目の次元の単位が知りたい、ということであれば、たぶん offset/Fs をかけたら秒になると思います【追記】スペクトログラムの横軸を秒表示に ```python fig = plt.figure() ax = fig.add_axes([0.2, 0.2, 0.7, 0.7]) ax.imshow(D.log2()[0,:,:].numpy(), origin='lower', extent=[t.min(), t.max(), 0, Fs/2], aspect='auto', cmap='jet') ax.set_xlabel("time [s]") ax.set_ylabel("frequency [Hz]") #ax.set_ylim(0, 3000) plt.show() ```

torchaudioを用いたwavファイルのスペクトログラム変換

前提・実現したいこと

Pytorchを使って音の分離を行うモデルを作っています。
前処理としてwavファイルからスペクトログラムに変換しているところです。
pytorchのtorchaudioというライブラリを使ってスペクトログラムに変換しています。エラーはないのですが、返り値が周波数成分の強さ、周波数、ウィンドウのホップ数の3次元のテンソルが返されます。スペクトログラムを時間ごとに見たいのですが、このホップ数を時間に変更する方法が分かりません。

発生している問題・エラーメッセージ

該当のソースコード

Python
1filename = "/content/drive/MyDrive/肺音/TrainingCD/coarse_crackle/67/TRACK67_11k.WAV"
2#waveread
3waveform, Fs = torchaudio.load(filename)
4"""
5nt = min(2^17, 2^(nextpow2(len(waveform.T))-1))
6waveform = waveform[1:nt]
7waveform = waveform / max(waveform) * 0.4
8"""
9print(waveform)
10print("Shape of waveform: {}".format(waveform.size()))
11print("Sample rate of waveform: {}".format(Fs))
12print(len(waveform.T))
13t = np.arange(len(waveform.T))/Fs
14plt.xlabel("time [s]")
15plt.ylabel("amplitude")
16#plt.xlim(0,len(waveform.T)/Fs)
17plt.plot(t, waveform.t().numpy())
18plt.show()
19
20#transform spectrogram
21nfft = 2048
22windowsize = nfft
23offset = windowsize // 4
24print(offset)
25D = torchaudio.transforms.Spectrogram(nfft, windowsize, offset)(waveform)
26#D = torchaudio.transforms.Spectrogram()(waveform)
27print("Shape of spectrogram: {}".format(D.size()))
28[l, m, n] = D.size()
29plt.figure()
30plt.imshow(D.log2()[0,:,:].numpy(), origin='lower')
31plt.xlabel("time [s]")
32plt.ylabel("frequency [Hz]")

試したこと

imshowの際にwaveformを時間に変換したものをDと一緒に与えてみたのですが、Dがすでに3次元のテンソルのためエラーが返されます。
また、参考にできるコードが公式のチュートリアルしかなく、チュートリアルでは解決できませんでした。

補足情報（FW/ツールのバージョンなど）

google colab

行動規範の内容に同意します

回答1件

ベストアンサー

このホップ数を時間に変更する方法

Dの三つ目の次元の単位が知りたい、ということであれば、たぶん offset/Fs をかけたら秒になると思います

【追記】スペクトログラムの横軸を秒表示に

python
1fig = plt.figure()
2ax = fig.add_axes([0.2, 0.2, 0.7, 0.7])
3ax.imshow(D.log2()[0,:,:].numpy(), origin='lower', extent=[t.min(), t.max(), 0, Fs/2], aspect='auto', cmap='jet')
4ax.set_xlabel("time [s]")
5ax.set_ylabel("frequency [Hz]")
6#ax.set_ylim(0, 3000)
7plt.show()

投稿2020/12/10 08:54

編集2020/12/14 11:58

jbpb0

総合スコア7658

takumi1114o

2020/12/11 11:21

回答ありがとうございます。今試しているところなのですが、Dにoffset/Fsをかけるという解釈で合っていますか?

jbpb0

2020/12/11 11:44 編集

Dの三つ目の次元の、最初の要素が0秒、次の要素がoffset/Fs秒、その次が2*offset/Fs秒、、、みたいな並びです Dの三つ目の次元の全要素数にoffset/Fsをかけたら、元のwavの長さ(秒)に近くなりませんか? 元のwavのデータ数/offset がきれいに割り切れない場合は、ピッタリとは合いませんが print(waveform.shape[1]/offset) print(D.shape[2])

takumi1114o

2020/12/14 05:58

回答が遅くなり、申し訳ありません。ありがとうございますおかげさまで時間は求めることができました！！お聞きしてばかりで申し訳ないのですが、この求めた時間をDの3次元目の要素に置き換えて時間ごとのスペクトログラムに変更することは可能でしょうか？やはりテンソルだと形は変えられないですか

jbpb0

2020/12/14 12:00 編集

> 求めた時間をDの3次元目の要素に置き換えて時間ごとのスペクトログラムに変更の意味がよく分からないのですが、スペクトログラムを表示する時の横軸の単位を秒にしたい、ということならば、下記のようにしたらできます【追記】コードは回答に書きました

takumi1114o

2020/12/15 09:35

そうです、秒単位で表示したいということでした。 jbpb0さんのおかげで解決できました。非常に助かりました。ありがとうございました!!

行動規範の内容に同意します