質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.53%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

意見交換

クローズ

1回答

582閲覧

長尺の音声から短い音声(動物の鳴き声など)を検出するためのライブラリやおすすめの方法を教えてほしいです

tokoro

総合スコア27

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2023/02/03 11:08

編集2023/03/09 07:05

0

0

テーマ、知りたいこと

Youtubeなどの長尺の音声データから、動物の鳴き声などの短い音声を検出(類似度を測定)するためのライブラリやおすすめの方法を教えてほしいです。

背景、状況

動物の鳴き声の音声サンプルが一定数あった場合に、その音声に似ている音がYoutube等の動画に含まれているかどうかを検出したいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

回答1

#1

退会済みユーザー

退会済みユーザー

総合スコア0

投稿2023/02/03 16:35

編集2023/02/03 16:46

動物の鳴き声などの短い音声を検出(類似度を測定)

たぶんですが、最近の論文を調べると大体以下の感じになると思います。

  1. 音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出:ライブラリはpydub
  2. 「短い音声」をメルスペクトログラムで処理して「短い音声に対応する画像」に変換:ライブラリはlibrosa
  3. あとは深層学習で捌く(類似度であればDeep Metric Learningあたりが相性が良いのでは?):ライブラリはTFでもPyTorchでも、気合があればJAXでも

→乱暴な言い方をすれば「顔が似ている」と「音が似ている」は、元データが「カメラ画像」か「メルスペクトログラムの画像」かくらいの違いしかなく、ネットワーク側にとってみれば知ったこっちゃない、くらいの違いしかないだろうと思います。(スペクトル画像はどうしても横に伸びるので、XYの畳み込み方向のピクセル数を合変えないといけない的な微妙な違いに由来する)タスクによって多少向き不向きみたいなものはあるかもしれませんが…。

味見をするだけならこれで十分な性能が得られそうです。
細かい手法の違いがあるはずですが、これで「そんなに外れではないところ」まで行けるはずです。
もっと詳しいことはそれっぽい英語でSOTAを探った方が良いです。


いやいや、波形データをフーリエ変換してチョメチョメして2010年くらいまでに出てきた機械学習の手法で――ということも頭をよぎりましたが、相手が動物(場合によっては機械だったり?人だったり?)だったりと多種多様なデータが入力側に来る可能性を考えると、今の技術水準では事実上深層学習一択と思う次第です。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

最新の回答から1ヶ月経過したため この意見交換はクローズされました

意見をやりとりしたい話題がある場合は質問してみましょう!

質問する

関連した質問