長尺の音声から短い音声(動物の鳴き声など)を検出するためのライブラリやおすすめの方法を教えてほしいです

テーマ、知りたいこと

Youtubeなどの長尺の音声データから、動物の鳴き声などの短い音声を検出(類似度を測定)するためのライブラリやおすすめの方法を教えてほしいです。

動物の鳴き声の音声サンプルが一定数あった場合に、その音声に似ている音がYoutube等の動画に含まれているかどうかを検出したいです。

回答1件

退会済みユーザー

総合スコア0

投稿2023/02/03 16:35

動物の鳴き声などの短い音声を検出(類似度を測定)
たぶんですが、最近の論文を調べると大体以下の感じになると思います。

音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出：ライブラリはpydub？
「短い音声」をメルスペクトログラムで処理して「短い音声に対応する画像」に変換：ライブラリはlibrosa？
あとは深層学習で捌く（類似度であればDeep Metric Learningあたりが相性が良いのでは？）：ライブラリはTFでもPyTorchでも、気合があればJAXでも
→乱暴な言い方をすれば「顔が似ている」と「音が似ている」は、元データが「カメラ画像」か「メルスペクトログラムの画像」かくらいの違いしかなく、ネットワーク側にとってみれば知ったこっちゃない、くらいの違いしかないだろうと思います。（スペクトル画像はどうしても横に伸びるので、ＸＹの畳み込み方向のピクセル数を合変えないといけない的な微妙な違いに由来する）タスクによって多少向き不向きみたいなものはあるかもしれませんが…。

味見をするだけならこれで十分な性能が得られそうです。
細かい手法の違いがあるはずですが、これで「そんなに外れではないところ」まで行けるはずです。
もっと詳しいことはそれっぽい英語でSOTAを探った方が良いです。

いやいや、波形データをフーリエ変換してチョメチョメして2010年くらいまでに出てきた機械学習の手法で――ということも頭をよぎりましたが、相手が動物（場合によっては機械だったり？人だったり？）だったりと多種多様なデータが入力側に来る可能性を考えると、今の技術水準では事実上深層学習一択と思う次第です。

最新の回答から1ヶ月経過したためこの意見交換はクローズされました

意見をやりとりしたい話題がある場合は質問してみましょう！