回答編集履歴

2023/02/03 16:46

投稿

スコア0

answer CHANGED Viewed

@@ -3,6 +3,7 @@
 1. 音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出：ライブラリは[pydub](https://github.com/jiaaro/pydub/blob/master/pydub/silence.py#L112)？
 2. 「短い音声」をメルスペクトログラムで処理して「短い音声に対応する画像」に変換：ライブラリは[librosa](https://librosa.org/doc/main/generated/librosa.feature.melspectrogram.html#librosa-feature-melspectrogram)？
 3. あとは深層学習で捌く（類似度であればDeep Metric Learningあたりが相性が良いのでは？）：ライブラリは[TF](https://www.tensorflow.org/?hl=ja)でも[PyTorch](https://pytorch.org/)でも、気合があれば[JAX](https://jax.readthedocs.io/en/latest/)でも
+→乱暴な言い方をすれば「顔が似ている」と「音が似ている」は、元データが「カメラ画像」か「メルスペクトログラムの画像」かくらいの違いしかなく、ネットワーク側にとってみれば知ったこっちゃない、くらいの違いしかないだろうと思います。（スペクトル画像はどうしても横に伸びるので、ＸＹの畳み込み方向のピクセル数を合変えないといけない的な微妙な違いに由来する）タスクによって多少向き不向きみたいなものはあるかもしれませんが…。
 味見をするだけならこれで十分な性能が得られそうです。
 細かい手法の違いがあるはずですが、これで「そんなに外れではないところ」まで行けるはずです。

2023/02/03 16:42

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -1,8 +1,8 @@
 > 動物の鳴き声などの短い音声を検出(類似度を測定)
 たぶんですが、最近の論文を調べると**大体**以下の感じになると思います。
-1. 音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出：ライブラリは[pydub](https://github.com/jiaaro/pydub/blob/master/pydub/silence.py#L112？
+1. 音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出：ライブラリは[pydub](https://github.com/jiaaro/pydub/blob/master/pydub/silence.py#L112)？
 2. 「短い音声」をメルスペクトログラムで処理して「短い音声に対応する画像」に変換：ライブラリは[librosa](https://librosa.org/doc/main/generated/librosa.feature.melspectrogram.html#librosa-feature-melspectrogram)？
-3. あとは深層学習で捌く（類似度であればDeep Metric Learningあたりが相性が良いのでは？）：ライブラリはTFでもPyTorchでも、気合があればJAXでも
+3. あとは深層学習で捌く（類似度であればDeep Metric Learningあたりが相性が良いのでは？）：ライブラリは[TF](https://www.tensorflow.org/?hl=ja)でも[PyTorch](https://pytorch.org/)でも、気合があれば[JAX](https://jax.readthedocs.io/en/latest/)でも
 味見をするだけならこれで十分な性能が得られそうです。
 細かい手法の違いがあるはずですが、これで「そんなに外れではないところ」まで行けるはずです。

リンク追加

2023/02/03 16:40

投稿

退会済みユーザー

スコア0

answer CHANGED Viewed

@@ -1,8 +1,8 @@
 > 動物の鳴き声などの短い音声を検出(類似度を測定)
 たぶんですが、最近の論文を調べると**大体**以下の感じになると思います。
-1. 音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出
+1. 音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出：ライブラリは[pydub](https://github.com/jiaaro/pydub/blob/master/pydub/silence.py#L112？
-2. 「短い音声」をメルスペクトログラムで処理して「短い音声に対応する画像」に変換
+2. 「短い音声」をメルスペクトログラムで処理して「短い音声に対応する画像」に変換：ライブラリは[librosa](https://librosa.org/doc/main/generated/librosa.feature.melspectrogram.html#librosa-feature-melspectrogram)？
-3. あとは深層学習で捌く（類似度であればDeep Metric Learningあたりが相性が良いのでは？）
+3. あとは深層学習で捌く（類似度であればDeep Metric Learningあたりが相性が良いのでは？）：ライブラリはTFでもPyTorchでも、気合があればJAXでも
 味見をするだけならこれで十分な性能が得られそうです。
 細かい手法の違いがあるはずですが、これで「そんなに外れではないところ」まで行けるはずです。