目的と問題点
目的 : 以下のコードで、スペクトログラムからwav形式の音データに変換、取得したい
問題点: 変換した音データが無茶苦茶な(?)雑音に変換されている
共有リンク:
(スペクトログラムから変換した音データ)
(スペクトログラムに変換する前の音データ,元の音データ)
(スペクトログラム)
そこで、正しく(ここでの正しさとは、元の音データと同じ音データを変換、取得すること)変換されていない原因と、
元の音データに近しくなるような変換、取得方法をご教授願いたいです。
よろしくお願いします。
#該当コード, スペクトログラムから音データに変換させたコード*
python3
1#!/usr/bin/env python 2# -*- coding: utf-8 -*- 3 4import time 5import numpy as np 6import scipy.io.wavfile as scw 7from PIL import Image 8from scipy.fftpack import ifft 9 10img_path = "asmr_imgdata/オノマトペ.wav_fig.jpg" # 読み込む画像の名前 11 12# 読み込んだ画像のリサイズ設定 13# 生成される音声の信号時間は height * width * 2 / fs [sec] 14height = 1024 # 大きいほど時間分解能が高く 15width = 64 # 大きいほど周波数分解能が高く 16 17raw_input_img = Image.open(img_path).convert("L") # グレースケールで読み込み 18input_img = raw_input_img.resize((height, width)) 19img_data = np.array(input_img, dtype="uint8") 20img_data = np.rot90(img_data, 3) # 画像の回転(スペクトログラム表示のときの方向調整) 21img_data = 255 - img_data # 黒がパワー大,白がパワー小となるようにネガポジ反転 22 23# 時間方向で画像を分割し,1行を短時間周波数結果と見る 24# 1行ごとに逆フーリエ変換(ifft)を行うことで波形を生成できる 25wav_data = np.zeros((height, width * 2)) 26for i, spectral in enumerate(img_data): 27 wav_data[i] = ifft(spectral, n=width*2).real 28 29wav_data = np.reshape(wav_data, height * width * 2) # 1行の行列データに整形 30wav_data = (2 ** 15 * wav_data) // max(abs(wav_data)) # 最大が 2**15 になるように正規化 31wav_data = np.array(wav_data, dtype="int16") # data type を int16に(wav書き出しのため) 32 33t = str(time.time()).replace(".", "") 34wav_path = "xxxx.wav".format(t) # 保存するwav音声の名前 35fs = 16000 # サンプリング周波数 36scw.write(wav_path, fs, wav_data) # wav書き出し
一応、以下に、音データからスペクトログラムに変換させたコードを貼っておきます
音データからスペクトログラムに変換させたコード
python3
1import wave 2import scipy as sp 3import numpy as np 4from scipy import signal 5import matplotlib.pyplot as plt 6import soundfile as sf 7 8print('名前を教えてください。') 9your_asmr_name = input('>> ') 10 11#音声データから生成するスペクトログラムのファイル名を決定 12data_fig_name ="asmr_imgdata/"+ your_asmr_name+"_fig.jpg" 13 14#読み込む音声ファイルの名前を決定 15your_asmr_name = "asmrdata/" + your_asmr_name+ ".wav" 16 17read_path = your_asmr_name 18print(your_asmr_name) 19 20write_path = "asmrdata/re_test.wav" 21 22wave_file = wave.open(read_path, "rb") 23 24amp = 2 * np.sqrt(2) 25length = 30000000 26fs = wave_file.getframerate() 27time = np.arange(length) / float(fs) 28x = wave_file.readframes(wave_file.getnframes()) 29wav_x = np.frombuffer(x, dtype= "int16") 30 31f, t, Zxx = signal.stft(wav_x[:length], fs, nperseg=1024) 32 33plt.pcolormesh(t, f, np.log(np.abs(Zxx)), vmin=0, vmax=amp) 34plt.title('STFT Magnitude') 35plt.ylabel('Frequency [Hz]') 36plt.xlabel('Time [sec]') 37plt.savefig(data_fig_name)
回答1件
あなたの回答
tips
プレビュー