音声の離散フーリエ変換後にノイズが入ってしまう

実現したいこと

マイクの入力にハイパスフィルタをかけたいです。

前提

Pythonを用いてマイクの入力をpyaudioで受けて、numpyを用いて離散フーリエ変換する事で、
ローパスフィルタをかけようとしています。

発生している問題

後述のように、フーリエ変換を少しでも変更するとノイズが発生します。
これは離散フーリエ変換の性質なのか、問題が発生しているのかわかりません。
フーリエ変換の性質の場合、音声にフィルタをかけるためには何が必要でしょうか。

該当のソースコード

Python
1import pyaudio
2import numpy as np
3import math
4import matplotlib as mpl
5import matplotlib.pyplot as plt
6
7
8def audio_trans(inp):
9    """
10    w = np.zeros(512, dtype=float)
11    for i in range(512):
12        w[i] = (math.cos(i / 512 * math.pi * 2 - math.pi) + 1) * 0.5
13    """
14    # data size
15    aaa = 512 * 2 * 2
16    # passing frequency
17    freq = 0
18
19    '''
20    f = np.fft.rfftfreq(2048, 1 / 44100)
21    x = np.arange(1025)
22    y = np.arange(512)
23    plt.plot(x, cv_data.imag, color="cyan", alpha=1)
24    plt.plot(x, cv_data.real, color="red", alpha=0.5)
25    plt.show()
26    '''
27    # fourier transforming
28    fft_data = np.fft.rfft(inp, aaa)
29
30    # editing coefficients
31    cv_data = np.zeros(aaa // 2 + 1, dtype=np.complex_)
32    for i in range(aaa // 2 + 1 - freq):
33        cv_data[i] = fft_data[i]
34
35    # invert fourier transforming
36    fft_data2 = np.fft.irfft(cv_data, aaa)
37
38    # era-kaihi
39    fft_data3 = np.real(fft_data2)
40    fft_data4 = np.zeros(aaa, dtype=int)
41    for num in range(aaa):
42        fft_data4[num] = int(fft_data3[num])
43
44    ret = np.array(fft_data4)
45
46    return ret
47
48
49def main():
50    CHUNK = 1024
51    RATE = 44100
52    p = pyaudio.PyAudio()
53
54    stream = p.open(format=pyaudio.paInt16,
55                    channels=1,
56                    rate=RATE,
57                    frames_per_buffer=CHUNK,
58                    input_device_index=1,
59                    output_device_index=10,
60                    input=True,
61                    output=True)
62
63    while stream.is_active():
64        st_input = stream.read(CHUNK)
65        data = np.frombuffer(st_input, dtype='int32')
66        
67        # to editor
68        data2 = audio_trans(data)
69        
70        input2 = np.frombuffer(data2, dtype='int32')
71        output = stream.write(input2)
72
73    stream.stop_stream()
74    stream.close()
75    p.terminate()
76
77    print
78    'Stop Streaming'
79
80
81if __name__ == '__main__':
82    main()

試したこと

freqを0にする、つまりフーリエ変換に変更を加えないと、望んだ音が返ってきました。
フーリエ変換の値の一部を0にすると、周波数に依存するノイズが発生しました。
値を1000000+1000000j減算してもノイズが発生しました。
値を2で除算してもノイズが発生しました。
有意に変更を加えると正しい音声にならない？

補足情報（FW/ツールのバージョンなど）

IntelliJ IDEA 2021.3.3 (Community Edition)
Build #IC-213.7172.25, built on March 16, 2022
Runtime version: 11.0.14.1+1-b1751.46 amd64
VM: OpenJDK 64-Bit Server VM by JetBrains s.r.o.

ozwk

2023/03/15 00:26

マイク入力だとテストしづらいので、カットされない周波数の正弦波を入力に与えるようにして入出力のグラフを貼ってください。

kikukiku

2023/03/15 00:47

高い周波数のみ抽出しているということなのでその結果がノイズのようになるのは正しい結果なのではないでしょうか？その結果が正しくなく、ノイズだとおっしゃっているのはどのような判断基準で言っているのでしょうか？感覚で判断せず、上記、ozwkさんのコメントのように、低い周波数と、高い周波数を入れてみて、高い周波数のみ通ることを確認されるのが良いと思います。

jbpb0

2023/03/15 01:24 編集

kikukikuさん > 高い周波数のみ抽出しているということなのでその結果がノイズのようになるのは正しい結果なのではないでしょうか？質問の「実現したいこと」には「ハイパスフィルタをかけたい」とありますが、「前提」には「ローパスフィルタをかけようと」とありますコードを見ると、「fft_data」の先頭の方だけ「cv_data」にコピーしてるので、「ローパスフィルタ」ですよね for i in range(aaa // 2 + 1 - freq): cv_data[i] = fft_data[i]

kikukiku

2023/03/15 04:43 編集

あら、確かにそうですね。ローパスフィルタを実現したいのであるならば、撤回します。どちらにしても、同じようにテストをした方が良いと思います。 ※当方はコードはわかりませんが、音声処理の基礎理論はすべて理解しているものです。

行動規範の内容に同意します

回答3件

入力信号を一定時間ごとに分割してフーリエ変換し、
適当な周波数領域を削って逆フーリエ変換しているものと思います。

質問で問題としているノイズの原因かはわかりませんが、とりあえず一般的な話をしますと、
この方法だと主に分割点付近で信号が不連続になったりノイズが発生します。

フーリエ変換というのは変換する信号が無限に繰り返すことを想定するので、
分割によって分割前にはなかった周波数成分が現れます。

簡単な例を挙げますと、平均値が0の正弦波を入力として、周波数0の成分を除くことを考えます。
当然、出力はなにも変化がないことを期待します。

1周期で分割した場合は信号の平均値は0なので
周波数が0の成分は当然0です。したがって周波数が0の成分を除いてもなにも変化を加えてませんので、
期待通りの出力が得られます。

一方で半周期で2分割した場合は信号の平均値が前半部分は正、後半部分は負になります。
なので周波数が0の成分が0になりません。それぞれ周波数が0の成分を除いてしまったら
信号に変化を加えたことになりますので、期待する出力になりません。

赤が入力信号、入力信号を前半と後半に分けてそれぞれ低周波成分を除くと入力信号から変化してしまう。

例では周波数が0の部分だけ扱いましたが、他の周波数領域でも同じことが起こります。
分割により意図しない周波数成分が現れて、それを削ってしまうことでノイズが入ります。

フィルタを実現する場合はフーリエ変換せずにFIRやIIRなどで実現するのが普通かと思います。

投稿2023/03/15 01:01

編集2023/03/15 01:15

ozwk

総合スコア13553

jbpb0

2023/03/15 02:17

質問のコードは、 for i in range(aaa // 2 + 1 - freq): cv_data[i] = fft_data[i] で、「fft_data」の先頭の方だけ「cv_data」にコピーしてるので、「ローパスフィルタ」だから、 > 周波数0の成分を除くことを考えます。は起きないと思いますフィルタ後に、(周波数0のデータを除去しなくても)つなぎ目が不連続になる影響はあるのでしょうけど

ozwk

2023/03/15 02:27

書いた後にハイパスじゃなくてローパスの話だったことに気づいたんで、例としてはあまりよろしくなかったとは思いますが、原理的には「分割により意図しない周波数成分が現れて、それを削ってしまうことでノイズが入る」が言いたいことなのでまあいいかと思ってます。

行動規範の内容に同意します

自己解決

解決しました。
結論としては、pyaudioのストリームを汲む時・に流す時のデータ型が間違っていました。

間違った方法では、
ストリームから"バイト型"で汲んだ後、それをnumpyで"int32"で読み取り、"int32"で流していました。
読み取ったデータには1文字おきに0が入っていましたので、小音量でしたので振幅の上位データが溢れたものと考えました。

よって、
numpyで読み取る時、
data = np.frombuffer(st_input, dtype='int16')
とし、流す前に
input2 = np.frombuffer(data2, dtype='int8')
とバイトとして与えた
ら、audio_transを挟んでも挟まなくても正常に音声が流れ、audio_transで窓をかけた上で周波数をカットし、オーバーラップしてつなげた時にも正常に聞こえました。

投稿2023/03/26 23:08

Yuki0

総合スコア5

フーリエ変換を少しでも変更するとノイズが発生します。
これは離散フーリエ変換の性質なのか

過去のダウンロード音素材
の「0332 小型船」からダウンロードして解凍した「0332.wav」を入力に、下記のコードを実行して作成した「0332lpf.wav」を聞いてみましたが、私には「ノイズ」に感じるものは聞こえませんでした
(私の聴覚が鈍感なのかもしれませんが)

python
1import numpy as np
2from scipy.io.wavfile import read, write
3
4
5readfilename = "./0332.wav"
6writefilename = "./0332lpf.wav"
7fs, inp = read(readfilename)
8
9# data size
10aaa = len(inp)
11# passing frequency
12freq = int((aaa // 2 + 1) * 0.9)
13
14# fourier transforming
15fft_data = np.fft.rfft(inp, aaa)
16
17# editing coefficients
18cv_data = np.zeros(aaa // 2 + 1, dtype=np.complex_)
19for i in range(aaa // 2 + 1 - freq):
20    cv_data[i] = fft_data[i]
21
22# invert fourier transforming
23fft_data2 = np.fft.irfft(cv_data, aaa)
24
25# era-kaihi
26fft_data3 = np.real(fft_data2)
27fft_data4 = np.zeros(aaa, dtype=int)
28for num in range(aaa):
29    fft_data4[num] = int(fft_data3[num])
30
31ret = np.array(fft_data4).astype("int16")
32write(writefilename, rate=fs, data=ret)

なお、上記のコードは、原因が「離散フーリエ変換」にあるかどうかを切り分けるために、質問のコードの「def audio_trans(inp):」の内容を取り出したものです

　
【追記】
ozwkさんも回答に書いてますが、フィルタ後のデータのつなぎ目が不連続になって、それが「ノイズ」として聞こえるのではないですかね

フィルタの窓関数設計
とかに書かれてるように、データに窓関数を適用させてからフィルタ処理すれば、つなぎ目の不連続性が緩和されると思います
ただし、元データを一定の長さに切り出す際にオーバーラップさせて切り出して、フィルタ後のデータを単純につなげるのではなく、オーバーラップ部分をミックスさせて、つないだところで音量が変わらないようにする必要があります

投稿2023/03/15 02:06

編集2023/03/15 03:10

jbpb0

総合スコア7658