teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

5

2021/10/01 01:52

投稿

退会済みユーザー
answer CHANGED
@@ -10,7 +10,7 @@
10
10
  別途ノイズだけ録音したものを使うのではなく、
11
11
  envelope関数を用いて、元の鳥のなき声が入った音声ファイルからしきい値で粗々のデータを得ようとしていると推測されます。
12
12
 
13
- (その記事のコードだと、envelop関数が、定義だけされておらず、どこ使用されていない、という点からの推理です)
13
+ (その記事のコードだと、envelop関数が、定義だけされていて、どこから参照されていない、という点からの推理です)
14
14
 
15
15
 
16
16
  なので下記のような形になるでしょうか。

4

2021/10/01 01:51

投稿

退会済みユーザー
answer CHANGED
@@ -1,15 +1,18 @@
1
- 00その記事とコードからやろうとしていることを読み取ると、
1
+ その記事とコードからやろうとしていることを読み取ると、
2
2
  ・ノイズ自身に短時間フーリエ変換(STFT)をかけて音声特徴を抽出
3
3
  ・その音声特徴を用いてノイズ除去を試みる
4
4
 
5
5
  というスキームである考えられます。
6
6
 
7
- したがって、「noise_clip」はその元となるノイズ音声データではないかと推測されます。
7
+ ここで、「noise_clip」は元となるノイズ音声データではないかと推測されます。
8
8
 
9
- そして、特徴抽出元となるノイズ音声データ(noise_clip)自体は
9
+ そして、特徴抽出前段階のノイズ音声データ(noise_clip)自体は
10
- 別途ノイズだけ録音したものを使うではなく、envelope関数を用いて、元の鳥のなき声が入った音声ファイルから
10
+ 別途ノイズだけ録音したものを使うではなく、
11
- しきい値を用いて粗々のデータを得ようとしてると推測されます。
11
+ envelope関数を用いて、元の鳥のなき声が入った音声ファイルからしきい値で粗々のデータを得ようとしてると推測されます。
12
12
 
13
+ (その記事のコードだと、envelop関数が、定義だけされておらず、どこにも使用されていない、という点からの推理です)
14
+
15
+
13
16
  なので下記のような形になるでしょうか。
14
17
 
15
18
  (thresholdは適当です。適宜調整してください)

3

2021/10/01 01:51

投稿

退会済みユーザー
answer CHANGED
@@ -1,16 +1,15 @@
1
- その記事とコードからやろうとしていることを読み取ると、
1
+ 00その記事とコードからやろうとしていることを読み取ると、
2
2
  ・ノイズ自身に短時間フーリエ変換(STFT)をかけて音声特徴を抽出
3
3
  ・その音声特徴を用いてノイズ除去を試みる
4
4
 
5
5
  というスキームである考えられます。
6
6
 
7
- したがって、「noise_clip」はそのなるノイズ音声データではないかと推測されます。
7
+ したがって、「noise_clip」はそのとなるノイズ音声データではないかと推測されます。
8
8
 
9
+ そして、特徴抽出元となるノイズ音声データ(noise_clip)自体は、
9
- そして、ノイズ音声データ自体は、元の鳥のなき声が入った音声ファイルから
10
+ 別途ノイズだけ録したものを使うでなくenvelope関数を用いて、元の鳥のなき声が入った音声ファイルから
10
- しきい値を用いて粗々のデータを得ようとして
11
+ しきい値を用いて粗々のデータを得ようとしてと推測されます。
11
12
 
12
- そのための関数がenvelope関数であると推測されます。
13
-
14
13
  なので下記のような形になるでしょうか。
15
14
 
16
15
  (thresholdは適当です。適宜調整してください)

2

2021/10/01 01:48

投稿

退会済みユーザー
answer CHANGED
@@ -6,6 +6,11 @@
6
6
 
7
7
  したがって、「noise_clip」はそのもととなるノイズ音声データではないかと推測されます。
8
8
 
9
+ そして、ノイズ音声データ自体は、元の鳥のなき声が入った音声ファイルから
10
+ しきい値を用いて粗々のデータを得ようとしている、
11
+
12
+ そのための関数がenvelope関数であると推測されます。
13
+
9
14
  なので下記のような形になるでしょうか。
10
15
 
11
16
  (thresholdは適当です。適宜調整してください)

1

2021/10/01 01:45

投稿

退会済みユーザー
answer CHANGED
@@ -21,7 +21,7 @@
21
21
  +sig, _ = librosa.load(path=音声ファイルパス, sr=sample_rate)
22
22
 
23
23
  +# ノイズデータ取得
24
- +mask, env = envelope(sig, sample_rate, threshold=0.03)
24
+ +mask, noise_clip = envelope(sig, sample_rate, threshold=0.03)
25
25
 
26
26
 
27
27
  noise_stft = _stft(noise_clip, n_fft, hop_length, win_length)