回答編集履歴

文法の修正

2020/10/24 03:50

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -4,7 +4,7 @@
 [stftのドキュメント](https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.stft.html)には、Notesに、In order to enable inversion of an STFT via the inverse STFT in istft, the signal windowing must obey the constraint of “Nonzero OverLap Add” (NOLA), and the input signal must have complete windowing coverage (i.e. (x.shape[axis] - nperseg) % (nperseg-noverlap) == 0).と記載されています。ちゃんとistftしたいのであれば、入力シグナルがぴったりとウインドウに切り分けられるように(x.shape[axis] - nperseg) % (nperseg-noverlap) == 0 であること、という意味です。すなわち、入力シグナルがウインドウで切り分けた余りがあることが、エラーの原因でした。実際には、paddedのデフォルトオプションによって、余りが自動補完されて1つ余計にウインドウが計算され、変換結果の方が膨らんでしまっていました。
-よって、**ウインドウがぴったりと切り取れるように入力配列の後ろを少し切り取る**修正をしました。これでエラーが解消されました。
+よって、**ウインドウがぴったりと切り分けられるように入力配列の後ろを少し削る**修正をしました。これでエラーが解消されました。
 **質問に無いエラーについて**
@@ -34,7 +34,7 @@
 window_num = 256 # 窓幅のデータ数
 stride_num = 128 # ストライド幅のデータ数
-# ★修正 ウインドウがぴったりと切り取れるように入力配列の後ろを少し切り取る。
+# ★修正 ウインドウがぴったりと切り分けられるように入力配列の後ろを少し削る
 x = x[:-((len(x) - window_num) % stride_num)]
 # ★修正 sg計算の前後で転置する。

補足追記

2020/10/24 03:50

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -14,9 +14,9 @@
 実際に、[モノラルとステレオ両方のサンプルを提供しているサイト](https://docs.espressif.com/projects/esp-adf/en/latest/design-guide/audio-samples.html)にてwavファイルを取得して、soundfileの取り込み形式を比較して確認しました。shapeを見ると、モノラルだと(8250520,)、ステレオだと(8250624, 2)といった形をしています。時間方向は最初の次元であることに注意してください。
-一方、[stftのドキュメント](https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.stft.html)には、Axis along which the STFT is computed; the default is over the last axis (i.e. axis=-1).と書かれており、時間方向が最後(-1)の次元がデフォルトです。よってこのギャップが原因で、モノラルだと通るけど、ステレオだとエラーが出る、ということになっていました。axisオプションでこの動作を変えることも可能ですが、istftも同様の思想なので、**「soundで取り込んだファイルをscipy.signalで分析する場合は、次元を入れ替えてしまったほうが早い」**と思います。
+一方、[stftのドキュメント](https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.stft.html)には、Axis along which the STFT is computed; the default is over the last axis (i.e. axis=-1).と書かれており、時間方向が最後(-1)の次元がデフォルトです。よってこのギャップが原因で、モノラルだと通るけど、ステレオだとエラーが出る、ということになっていました。デフォルト設定でステレオ音声を入力すると、時間方向の配列の長さが2しか無いことになり、最初かつ唯一のウインドウサイズ（=nperseg）が小さすぎて、設定されたnoverlapと比較して変だよ、というエラーになっていたものと思います。原因がわかるとエラーの意味もわかります。
-よって、scipy.signal処理の時に音声配列を転置（.T）してしまうのが解決策です。これにより、このエラーを解消することができました。なお、質問者様の音声ファイルはモノラルなのでエラーが発生していなかったと思われます。
+対策としてaxisオプションでこの動作を変えることも可能ですが、istftも同様の思想なので、**「soundで取り込んだファイルをscipy.signalで分析する場合は、次元を入れ替えてしまったほうが早い」**と思います。よって、scipy.signal処理の時に音声配列を転置（.T）してしまうのが解決策です。これにより、このエラーを解消することができました。なお、質問者様の音声ファイルはモノラルなのでエラーが発生していなかったと思われます。
 以上2点の修正を加えたソースです。

文法の修正

2020/10/24 03:47

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -2,9 +2,9 @@
 stftしてistftすると、元の配列から長さが変わるようです。そのため、長さを揃えて計算しないと、`plt.plot(x-y)`のところで、`ValueError: operands could not be broadcast together with shapes (27200,) (27264,)`といったエラーが出ます。これが質問者様の報告されたエラーです。
-[stftのドキュメント](https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.stft.html)には、Notesに、In order to enable inversion of an STFT via the inverse STFT in istft, the signal windowing must obey the constraint of “Nonzero OverLap Add” (NOLA), and the input signal must have complete windowing coverage (i.e. (x.shape[axis] - nperseg) % (nperseg-noverlap) == 0).と記載されており、ちゃんとistftしたいのであれば、入力シグナルがぴったりとウインドウに切り分けられるように(x.shape[axis] - nperseg) % (nperseg-noverlap) == 0 であること、という記載があります。すなわち、入力シグナルがウインドウで切り分けた余りがあることが、エラーの原因でした。実際には、paddedのデフォルトオプションによって、余りが補完されて、変換結果の方が膨らんでしまっています。
+[stftのドキュメント](https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.stft.html)には、Notesに、In order to enable inversion of an STFT via the inverse STFT in istft, the signal windowing must obey the constraint of “Nonzero OverLap Add” (NOLA), and the input signal must have complete windowing coverage (i.e. (x.shape[axis] - nperseg) % (nperseg-noverlap) == 0).と記載されています。ちゃんとistftしたいのであれば、入力シグナルがぴったりとウインドウに切り分けられるように(x.shape[axis] - nperseg) % (nperseg-noverlap) == 0 であること、という意味です。すなわち、入力シグナルがウインドウで切り分けた余りがあることが、エラーの原因でした。実際には、paddedのデフォルトオプションによって、余りが自動補完されて1つ余計にウインドウが計算され、変換結果の方が膨らんでしまっていました。
-よって、**ウインドウがぴったりと切り取れるように入力配列の後ろを少し切り取る**ことで、このエラーが解消されます。
+よって、**ウインドウがぴったりと切り取れるように入力配列の後ろを少し切り取る**修正をしました。これでエラーが解消されました。
 **質問に無いエラーについて**

より正確な記載に修正

2020/10/24 03:35

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -2,8 +2,10 @@
 stftしてistftすると、元の配列から長さが変わるようです。そのため、長さを揃えて計算しないと、`plt.plot(x-y)`のところで、`ValueError: operands could not be broadcast together with shapes (27200,) (27264,)`といったエラーが出ます。これが質問者様の報告されたエラーです。
-ちょっとこれ、stft → istftで同じ長さに戻すオプションの付け方とかあるのかもしれませんが、未確認です。
+[stftのドキュメント](https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.stft.html)には、Notesに、In order to enable inversion of an STFT via the inverse STFT in istft, the signal windowing must obey the constraint of “Nonzero OverLap Add” (NOLA), and the input signal must have complete windowing coverage (i.e. (x.shape[axis] - nperseg) % (nperseg-noverlap) == 0).と記載されており、ちゃんとistftしたいのであれば、入力シグナルがぴったりとウインドウに切り分けられるように(x.shape[axis] - nperseg) % (nperseg-noverlap) == 0 であること、という記載があります。すなわち、入力シグナルがウインドウで切り分けた余りがあることが、エラーの原因でした。実際には、paddedのデフォルトオプションによって、余りが補完されて、変換結果の方が膨らんでしまっています。
+よって、**ウインドウがぴったりと切り取れるように入力配列の後ろを少し切り取る**ことで、このエラーが解消されます。
 **質問に無いエラーについて**
 ところが、上記に至るまでに別のエラーで悩まされました。`f, t, X1 = sg.stft(x, fs=fs, nperseg=window_num, noverlap=window_num-stride_num)`のところで、別のエラー`ValueError: noverlap must be less than nperseg.`が発生するのです。
@@ -12,7 +14,7 @@
 実際に、[モノラルとステレオ両方のサンプルを提供しているサイト](https://docs.espressif.com/projects/esp-adf/en/latest/design-guide/audio-samples.html)にてwavファイルを取得して、soundfileの取り込み形式を比較して確認しました。shapeを見ると、モノラルだと(8250520,)、ステレオだと(8250624, 2)といった形をしています。時間方向は最初の次元であることに注意してください。
-一方、stftの方は、Axis along which the STFT is computed; the default is over the last axis (i.e. axis=-1).と書かれており、時間方向が最後(-1)の次元がデフォルトです。よってこのギャップが原因で、モノラルだと通るけど、ステレオだとエラーが出る、ということになっていました。axisオプションでこの動作を変えることも可能ですが、istftも同様の思想なので、**「soundで取り込んだファイルをscipy.signalで分析する場合は、次元を入れ替えてしまったほうが早い」**と思います。
+一方、[stftのドキュメント](https://docs.scipy.org/doc/scipy/reference/generated/scipy.signal.stft.html)には、Axis along which the STFT is computed; the default is over the last axis (i.e. axis=-1).と書かれており、時間方向が最後(-1)の次元がデフォルトです。よってこのギャップが原因で、モノラルだと通るけど、ステレオだとエラーが出る、ということになっていました。axisオプションでこの動作を変えることも可能ですが、istftも同様の思想なので、**「soundで取り込んだファイルをscipy.signalで分析する場合は、次元を入れ替えてしまったほうが早い」**と思います。
 よって、scipy.signal処理の時に音声配列を転置（.T）してしまうのが解決策です。これにより、このエラーを解消することができました。なお、質問者様の音声ファイルはモノラルなのでエラーが発生していなかったと思われます。
@@ -32,6 +34,9 @@
 window_num = 256 # 窓幅のデータ数
 stride_num = 128 # ストライド幅のデータ数
+# ★修正 ウインドウがぴったりと切り取れるように入力配列の後ろを少し切り取る。
+x = x[:-((len(x) - window_num) % stride_num)]
 # ★修正 sg計算の前後で転置する。
 # スペクトログラムの計算
 f, t, X1 = sg.stft(x.T, fs=fs, nperseg=window_num, noverlap=(window_num-stride_num))
@@ -54,7 +59,5 @@
 # - 信号差の波形(ここが分からない。入力信号xと出力信号yの差信号x−yが求めたい)
 plt.figure('Signal difference waveform')
-# ★修正 配列の長さを揃える
-min_len = min(len(x), len(y))
-plt.plot(x[:min_len]-y[:min_len])
+plt.plot(x-y)
 ```

一部修正

2020/10/24 03:29

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -1,15 +1,21 @@
-質問のエラーについて
+**質問のエラーについて**
 stftしてistftすると、元の配列から長さが変わるようです。そのため、長さを揃えて計算しないと、`plt.plot(x-y)`のところで、`ValueError: operands could not be broadcast together with shapes (27200,) (27264,)`といったエラーが出ます。これが質問者様の報告されたエラーです。
-質問に無いエラーについて
+ちょっとこれ、stft → istftで同じ長さに戻すオプションの付け方とかあるのかもしれませんが、未確認です。
-ところが、上記に至るまでに別のエラーで悩まされました。`f, t, X1 = sg.stft(x, fs=fs, nperseg=window_num, noverlap=window_num-stride_num)`のところで、別のエラー`ValueError: noverlap must be less than nperseg.`が発生するのです。soundfileで音声を取り込んでstftをする例がネットに無く、waveによる取り込みが主でした。よって、waveによる取り込みとsoundfileによる取り込みを比較して、ステレオ時にsoundfileで取り込む形式が、その後のstftに悪影響を与えていることを関連付けました。
+**質問に無いエラーについて**
-結論としては、soundfileでの音声ファイルは、モノラルでは1次元、ステレオでは2次元の配列になっていることが原因でした。実際に、[モノラルとステレオ両方のサンプルを提供しているサイト](https://docs.espressif.com/projects/esp-adf/en/latest/design-guide/audio-samples.html)にてwavファイルを取得して、soundfileの取り込み形式を比較して確認しました。一方、stftは1次元配列を前提としています。
+ところが、上記に至るまでに別のエラーで悩まされました。`f, t, X1 = sg.stft(x, fs=fs, nperseg=window_num, noverlap=window_num-stride_num)`のところで、別のエラー`ValueError: noverlap must be less than nperseg.`が発生するのです。
-そのため、soundfileの入力がモノラルかステレオかを区別して、ステレオの際には、片側の音声のみ1次元配列として取り出す対処をする必要があります。これにより、このエラーを解消することができました。なお、質問者様の音声ファイルはモノラルなのでエラーが発生していなかったと思われます。
+結論としては、soundfileでの音声ファイルは、モノラルでは1次元、ステレオでは2次元の配列になっていること、および2次元の時の次元の意味がstftの期待とズレていることが原因でした。
+実際に、[モノラルとステレオ両方のサンプルを提供しているサイト](https://docs.espressif.com/projects/esp-adf/en/latest/design-guide/audio-samples.html)にてwavファイルを取得して、soundfileの取り込み形式を比較して確認しました。shapeを見ると、モノラルだと(8250520,)、ステレオだと(8250624, 2)といった形をしています。時間方向は最初の次元であることに注意してください。
+一方、stftの方は、Axis along which the STFT is computed; the default is over the last axis (i.e. axis=-1).と書かれており、時間方向が最後(-1)の次元がデフォルトです。よってこのギャップが原因で、モノラルだと通るけど、ステレオだとエラーが出る、ということになっていました。axisオプションでこの動作を変えることも可能ですが、istftも同様の思想なので、**「soundで取り込んだファイルをscipy.signalで分析する場合は、次元を入れ替えてしまったほうが早い」**と思います。
+よって、scipy.signal処理の時に音声配列を転置（.T）してしまうのが解決策です。これにより、このエラーを解消することができました。なお、質問者様の音声ファイルはモノラルなのでエラーが発生していなかったと思われます。
 以上2点の修正を加えたソースです。
 ```Python
@@ -26,15 +32,13 @@
 window_num = 256 # 窓幅のデータ数
 stride_num = 128 # ストライド幅のデータ数
-# ★修正 マルチチャネルなら最初きチャネルのみを取り出す
+# ★修正 sg計算の前後で転置する。
-if x.ndim > 1:
-	x = x[:,0]
 # スペクトログラムの計算
-f, t, X1 = sg.stft(x, fs=fs, nperseg=window_num, noverlap=(window_num-stride_num))
+f, t, X1 = sg.stft(x.T, fs=fs, nperseg=window_num, noverlap=(window_num-stride_num))
 # 逆STFTによる復号
 _, y = sg.istft(X1, fs=fs, nperseg=window_num, noverlap=(window_num-stride_num))
+y = y.T
 # 出力音声の保存
 sf.write('outout.wav', y, fs)

質問修正に伴う回答修正

2020/10/24 01:43

投稿

toast-uz

スコア3266

answer CHANGED Viewed

@@ -1,7 +1,56 @@
-質問者様の使われたOverlapLengthは、有償プログラミング言語であるMATLABのオプションです。MATLABはそもそもPythonとは別物ですし、Pythonのライブラリとも似て非なるものです。Pythonのライブラリ群がMATLABを真似たものと思います。
+質問のエラーについて
-現状のコードでは、OverlapLengthの箇所以外でも、エラーやワーニングが各所に出てしまいます。
+stftしてistftすると、元の配列から長さが変わるようです。そのため、長さを揃えて計算しないと、`plt.plot(x-y)`のところで、`ValueError: operands could not be broadcast together with shapes (27200,) (27264,)`といったエラーが出ます。これが質問者様の報告されたエラーです。
-よって、Pythonとそのライブラリ群を前提に、コードを再度検討いただき、改めてご質問ください。
-[ウィキペティアMATLAB](https://ja.wikipedia.org/wiki/MATLAB)
-[MATLAB に慣れた人が Python を始めるときの１１の注意点](https://datachemeng.com/matlab_to_python/)
+質問に無いエラーについて
+ところが、上記に至るまでに別のエラーで悩まされました。`f, t, X1 = sg.stft(x, fs=fs, nperseg=window_num, noverlap=window_num-stride_num)`のところで、別のエラー`ValueError: noverlap must be less than nperseg.`が発生するのです。soundfileで音声を取り込んでstftをする例がネットに無く、waveによる取り込みが主でした。よって、waveによる取り込みとsoundfileによる取り込みを比較して、ステレオ時にsoundfileで取り込む形式が、その後のstftに悪影響を与えていることを関連付けました。
+結論としては、soundfileでの音声ファイルは、モノラルでは1次元、ステレオでは2次元の配列になっていることが原因でした。実際に、[モノラルとステレオ両方のサンプルを提供しているサイト](https://docs.espressif.com/projects/esp-adf/en/latest/design-guide/audio-samples.html)にてwavファイルを取得して、soundfileの取り込み形式を比較して確認しました。一方、stftは1次元配列を前提としています。
+そのため、soundfileの入力がモノラルかステレオかを区別して、ステレオの際には、片側の音声のみ1次元配列として取り出す対処をする必要があります。これにより、このエラーを解消することができました。なお、質問者様の音声ファイルはモノラルなのでエラーが発生していなかったと思われます。
+以上2点の修正を加えたソースです。
+```Python
+# モジュールのインポート
+import numpy as np
+import matplotlib.pyplot as plt
+import soundfile as sf
+import scipy
+from scipy import signal as sg
+# 音声の読み込み
+x, fs = sf.read('speech1.wav')
+window_num = 256 # 窓幅のデータ数
+stride_num = 128 # ストライド幅のデータ数
+# ★修正 マルチチャネルなら最初きチャネルのみを取り出す
+if x.ndim > 1:
+	x = x[:,0]
+# スペクトログラムの計算
+f, t, X1 = sg.stft(x, fs=fs, nperseg=window_num, noverlap=(window_num-stride_num))
+# 逆STFTによる復号
+_, y = sg.istft(X1, fs=fs, nperseg=window_num, noverlap=(window_num-stride_num))
+# 出力音声の保存
+sf.write('outout.wav', y, fs)
+# グラフに表示
+# - 波形
+plt.figure('Original waveform')
+plt.plot(x)
+# - 復号した波形
+plt.figure('Decryption waveform')
+plt.plot(y)
+# - 信号差の波形(ここが分からない。入力信号xと出力信号yの差信号x−yが求めたい)
+plt.figure('Signal difference waveform')
+# ★修正 配列の長さを揃える
+min_len = min(len(x), len(y))
+plt.plot(x[:min_len]-y[:min_len])
+```