質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
PyTorch

PyTorchは、オープンソースのPython向けの機械学習ライブラリ。Facebookの人工知能研究グループが開発を主導しています。強力なGPUサポートを備えたテンソル計算、テープベースの自動微分による柔軟なニューラルネットワークの記述が可能です。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

ファイルI/O

ファイルI/Oは、コンピューターにおけるファイルの入出力です。これは生成/削除やファイルを読み込んだり、出力をファイルに書き込むようなディレクトリやファイルの運用を含みます。

コードレビュー

コードレビューは、ソフトウェア開発の一工程で、 ソースコードの検査を行い、開発工程で見過ごされた誤りを検出する事で、 ソフトウェア品質を高めるためのものです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1279閲覧

torchaudioを用いたwavファイルのスペクトログラム変換

takumi1114o

総合スコア2

PyTorch

PyTorchは、オープンソースのPython向けの機械学習ライブラリ。Facebookの人工知能研究グループが開発を主導しています。強力なGPUサポートを備えたテンソル計算、テープベースの自動微分による柔軟なニューラルネットワークの記述が可能です。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

ファイルI/O

ファイルI/Oは、コンピューターにおけるファイルの入出力です。これは生成/削除やファイルを読み込んだり、出力をファイルに書き込むようなディレクトリやファイルの運用を含みます。

コードレビュー

コードレビューは、ソフトウェア開発の一工程で、 ソースコードの検査を行い、開発工程で見過ごされた誤りを検出する事で、 ソフトウェア品質を高めるためのものです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/12/10 06:43

前提・実現したいこと

Pytorchを使って音の分離を行うモデルを作っています。
前処理としてwavファイルからスペクトログラムに変換しているところです。
pytorchのtorchaudioというライブラリを使ってスペクトログラムに変換しています。エラーはないのですが、返り値が周波数成分の強さ、周波数、ウィンドウのホップ数の3次元のテンソルが返されます。スペクトログラムを時間ごとに見たいのですが、このホップ数を時間に変更する方法が分かりません。

発生している問題・エラーメッセージ

該当のソースコード

Python

1filename = "/content/drive/MyDrive/肺音/TrainingCD/coarse_crackle/67/TRACK67_11k.WAV" 2#waveread 3waveform, Fs = torchaudio.load(filename) 4""" 5nt = min(2^17, 2^(nextpow2(len(waveform.T))-1)) 6waveform = waveform[1:nt] 7waveform = waveform / max(waveform) * 0.4 8""" 9print(waveform) 10print("Shape of waveform: {}".format(waveform.size())) 11print("Sample rate of waveform: {}".format(Fs)) 12print(len(waveform.T)) 13t = np.arange(len(waveform.T))/Fs 14plt.xlabel("time [s]") 15plt.ylabel("amplitude") 16#plt.xlim(0,len(waveform.T)/Fs) 17plt.plot(t, waveform.t().numpy()) 18plt.show() 19 20#transform spectrogram 21nfft = 2048 22windowsize = nfft 23offset = windowsize // 4 24print(offset) 25D = torchaudio.transforms.Spectrogram(nfft, windowsize, offset)(waveform) 26#D = torchaudio.transforms.Spectrogram()(waveform) 27print("Shape of spectrogram: {}".format(D.size())) 28[l, m, n] = D.size() 29plt.figure() 30plt.imshow(D.log2()[0,:,:].numpy(), origin='lower') 31plt.xlabel("time [s]") 32plt.ylabel("frequency [Hz]")

試したこと

imshowの際にwaveformを時間に変換したものをDと一緒に与えてみたのですが、Dがすでに3次元のテンソルのためエラーが返されます。
また、参考にできるコードが公式のチュートリアルしかなく、チュートリアルでは解決できませんでした。

補足情報(FW/ツールのバージョンなど)

google colab

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

このホップ数を時間に変更する方法

Dの三つ目の次元の単位が知りたい、ということであれば、たぶん offset/Fs をかけたら秒になると思います

【追記】スペクトログラムの横軸を秒表示に

python

1fig = plt.figure() 2ax = fig.add_axes([0.2, 0.2, 0.7, 0.7]) 3ax.imshow(D.log2()[0,:,:].numpy(), origin='lower', extent=[t.min(), t.max(), 0, Fs/2], aspect='auto', cmap='jet') 4ax.set_xlabel("time [s]") 5ax.set_ylabel("frequency [Hz]") 6#ax.set_ylim(0, 3000) 7plt.show()

投稿2020/12/10 08:54

編集2020/12/14 11:58
jbpb0

総合スコア7651

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

takumi1114o

2020/12/11 11:21

回答ありがとうございます。 今試しているところなのですが、Dにoffset/Fsをかけるという解釈で合っていますか?
jbpb0

2020/12/11 11:44 編集

Dの三つ目の次元の、最初の要素が0秒、次の要素がoffset/Fs秒、その次が2*offset/Fs秒、、、みたいな並びです Dの三つ目の次元の全要素数にoffset/Fsをかけたら、元のwavの長さ(秒)に近くなりませんか? 元のwavのデータ数/offset がきれいに割り切れない場合は、ピッタリとは合いませんが print(waveform.shape[1]/offset) print(D.shape[2])
takumi1114o

2020/12/14 05:58

回答が遅くなり、申し訳ありません。 ありがとうございます おかげさまで時間は求めることができました!! お聞きしてばかりで申し訳ないのですが、この求めた時間をDの3次元目の要素に置き換えて時間ごとのスペクトログラムに変更することは可能でしょうか?やはりテンソルだと形は変えられないですか
jbpb0

2020/12/14 12:00 編集

> 求めた時間をDの3次元目の要素に置き換えて時間ごとのスペクトログラムに変更 の意味がよく分からないのですが、スペクトログラムを表示する時の横軸の単位を秒にしたい、ということならば、下記のようにしたらできます 【追記】コードは回答に書きました
takumi1114o

2020/12/15 09:35

そうです、秒単位で表示したいということでした。 jbpb0さんのおかげで解決できました。 非常に助かりました。ありがとうございました!!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問