質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

4966閲覧

スペクトログラムからwav形式の音データに変換したが、雑音だらけ

Kenza

総合スコア21

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/07/03 11:14

編集2019/07/09 03:06

目的と問題点
目的 : 以下のコードで、スペクトログラムからwav形式の音データに変換、取得したい
問題点: 変換した音データが無茶苦茶な(?)雑音に変換されている

共有リンク:
(スペクトログラムから変換した音データ)
(スペクトログラムに変換する前の音データ,元の音データ)
(スペクトログラム)

そこで、正しく(ここでの正しさとは、元の音データと同じ音データを変換、取得すること)変換されていない原因と、
元の音データに近しくなるような変換、取得方法をご教授願いたいです。
よろしくお願いします。

#該当コード, スペクトログラムから音データに変換させたコード*

python3

1#!/usr/bin/env python 2# -*- coding: utf-8 -*- 3 4import time 5import numpy as np 6import scipy.io.wavfile as scw 7from PIL import Image 8from scipy.fftpack import ifft 9 10img_path = "asmr_imgdata/オノマトペ.wav_fig.jpg" # 読み込む画像の名前 11 12# 読み込んだ画像のリサイズ設定 13# 生成される音声の信号時間は height * width * 2 / fs [sec] 14height = 1024 # 大きいほど時間分解能が高く 15width = 64 # 大きいほど周波数分解能が高く 16 17raw_input_img = Image.open(img_path).convert("L") # グレースケールで読み込み 18input_img = raw_input_img.resize((height, width)) 19img_data = np.array(input_img, dtype="uint8") 20img_data = np.rot90(img_data, 3) # 画像の回転(スペクトログラム表示のときの方向調整) 21img_data = 255 - img_data # 黒がパワー大,白がパワー小となるようにネガポジ反転 22 23# 時間方向で画像を分割し,1行を短時間周波数結果と見る 24# 1行ごとに逆フーリエ変換(ifft)を行うことで波形を生成できる 25wav_data = np.zeros((height, width * 2)) 26for i, spectral in enumerate(img_data): 27 wav_data[i] = ifft(spectral, n=width*2).real 28 29wav_data = np.reshape(wav_data, height * width * 2) # 1行の行列データに整形 30wav_data = (2 ** 15 * wav_data) // max(abs(wav_data)) # 最大が 2**15 になるように正規化 31wav_data = np.array(wav_data, dtype="int16") # data type を int16に(wav書き出しのため) 32 33t = str(time.time()).replace(".", "") 34wav_path = "xxxx.wav".format(t) # 保存するwav音声の名前 35fs = 16000 # サンプリング周波数 36scw.write(wav_path, fs, wav_data) # wav書き出し

一応、以下に、音データからスペクトログラムに変換させたコードを貼っておきます
音データからスペクトログラムに変換させたコード

python3

1import wave 2import scipy as sp 3import numpy as np 4from scipy import signal 5import matplotlib.pyplot as plt 6import soundfile as sf 7 8print('名前を教えてください。') 9your_asmr_name = input('>> ') 10 11#音声データから生成するスペクトログラムのファイル名を決定 12data_fig_name ="asmr_imgdata/"+ your_asmr_name+"_fig.jpg" 13 14#読み込む音声ファイルの名前を決定 15your_asmr_name = "asmrdata/" + your_asmr_name+ ".wav" 16 17read_path = your_asmr_name 18print(your_asmr_name) 19 20write_path = "asmrdata/re_test.wav" 21 22wave_file = wave.open(read_path, "rb") 23 24amp = 2 * np.sqrt(2) 25length = 30000000 26fs = wave_file.getframerate() 27time = np.arange(length) / float(fs) 28x = wave_file.readframes(wave_file.getnframes()) 29wav_x = np.frombuffer(x, dtype= "int16") 30 31f, t, Zxx = signal.stft(wav_x[:length], fs, nperseg=1024) 32 33plt.pcolormesh(t, f, np.log(np.abs(Zxx)), vmin=0, vmax=amp) 34plt.title('STFT Magnitude') 35plt.ylabel('Frequency [Hz]') 36plt.xlabel('Time [sec]') 37plt.savefig(data_fig_name)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

ikadzuchi

2019/07/09 01:11

とりあえず気になる点として、その画像は実際に入力に使っているものですか? もしそうなら周囲に余計なものが付いていて、かつ時間分解能が低すぎて意味のある出力は出そうにありませんが。 あとスペクトルグラムでなくスペクトログラムです。
Kenza

2019/07/09 10:21

回答ありがとうございます。実際に入力に使った画像です。 質問ですが、周囲の余計なものとは具体的に何を意味するのでしょうか??
ikadzuchi

2019/07/10 00:35

余白や目盛りやキャプションのことです。
guest

回答1

0

自己解決

位相補完を行なっていない。
Grffinlim方などで位相補完、推定する

投稿2019/12/12 10:36

Kenza

総合スコア21

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問