動物の鳴き声などの短い音声を検出(類似度を測定)
たぶんですが、最近の論文を調べると大体以下の感じになると思います。
- 音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出:ライブラリはpydub?
- 「短い音声」をメルスペクトログラムで処理して「短い音声に対応する画像」に変換:ライブラリはlibrosa?
- あとは深層学習で捌く(類似度であればDeep Metric Learningあたりが相性が良いのでは?):ライブラリはTFでもPyTorchでも、気合があればJAXでも
→乱暴な言い方をすれば「顔が似ている」と「音が似ている」は、元データが「カメラ画像」か「メルスペクトログラムの画像」かくらいの違いしかなく、ネットワーク側にとってみれば知ったこっちゃない、くらいの違いしかないだろうと思います。(スペクトル画像はどうしても横に伸びるので、XYの畳み込み方向のピクセル数を合変えないといけない的な微妙な違いに由来する)タスクによって多少向き不向きみたいなものはあるかもしれませんが…。
味見をするだけならこれで十分な性能が得られそうです。
細かい手法の違いがあるはずですが、これで「そんなに外れではないところ」まで行けるはずです。
もっと詳しいことはそれっぽい英語でSOTAを探った方が良いです。
いやいや、波形データをフーリエ変換してチョメチョメして2010年くらいまでに出てきた機械学習の手法で――ということも頭をよぎりましたが、相手が動物(場合によっては機械だったり?人だったり?)だったりと多種多様なデータが入力側に来る可能性を考えると、今の技術水準では事実上深層学習一択と思う次第です。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。