Q&A
テーマ、知りたいこと
Youtubeなどの長尺の音声データから、動物の鳴き声などの短い音声を検出(類似度を測定)するためのライブラリやおすすめの方法を教えてほしいです。
背景、状況
動物の鳴き声の音声サンプルが一定数あった場合に、その音声に似ている音がYoutube等の動画に含まれているかどうかを検出したいです。
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
下記のような質問は推奨されていません。
- 質問になっていない投稿
- スパムや攻撃的な表現を用いた投稿
適切な質問に修正を依頼しましょう。
回答1件
#1
総合スコア2762
投稿2023/02/03 16:35
編集2023/02/03 16:46動物の鳴き声などの短い音声を検出(類似度を測定)
たぶんですが、最近の論文を調べると大体以下の感じになると思います。
- 音声データをdB数か何かで足切りして個別の鳴き声などの「短い音声」を検出:ライブラリはpydub?
- 「短い音声」をメルスペクトログラムで処理して「短い音声に対応する画像」に変換:ライブラリはlibrosa?
- あとは深層学習で捌く(類似度であればDeep Metric Learningあたりが相性が良いのでは?):ライブラリはTFでもPyTorchでも、気合があればJAXでも
→乱暴な言い方をすれば「顔が似ている」と「音が似ている」は、元データが「カメラ画像」か「メルスペクトログラムの画像」かくらいの違いしかなく、ネットワーク側にとってみれば知ったこっちゃない、くらいの違いしかないだろうと思います。(スペクトル画像はどうしても横に伸びるので、XYの畳み込み方向のピクセル数を合変えないといけない的な微妙な違いに由来する)タスクによって多少向き不向きみたいなものはあるかもしれませんが…。
味見をするだけならこれで十分な性能が得られそうです。
細かい手法の違いがあるはずですが、これで「そんなに外れではないところ」まで行けるはずです。
もっと詳しいことはそれっぽい英語でSOTAを探った方が良いです。
いやいや、波形データをフーリエ変換してチョメチョメして2010年くらいまでに出てきた機械学習の手法で――ということも頭をよぎりましたが、相手が動物(場合によっては機械だったり?人だったり?)だったりと多種多様なデータが入力側に来る可能性を考えると、今の技術水準では事実上深層学習一択と思う次第です。
関連した質問
Q&A
受付中
Python エクセルからのデータ抽出で記載されているまま抽出したい
回答2
クリップ1
更新
2023/03/20
Q&A
受付中
Google Colabでselenium使用時、『send_keys』がエラーになってしまう件
回答1
クリップ0
更新
2023/03/22
Q&A
受付中
実行するタイミングでスクレイピング内容が変わる?
回答1
クリップ2
更新
2023/03/22
意見交換
受付中
WebARのメリットを教えてください。またWebARのメリットを人に教えるいい方法はありますか?
回答3
クリップ0
更新
2023/03/22
Q&A
解決済
Youtubeの動画再生時のURLを改変したい。
回答1
クリップ2
更新
2023/03/14
Q&A
受付中
python で年数の引き算をする方法
回答2
クリップ0
更新
2023/03/22
Q&A
解決済
Chrome拡張機能のプログラムでUncaught TypeErrorを回避したい。chrome.tabs.onUpdated.addListener
回答2
クリップ1
更新
2023/03/10
同じタグがついた質問を見る
深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。
機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。
Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。
下記のような回答は推奨されていません。
このような回答には修正を依頼しましょう。