リアルタイムでマイクから拾った音の音域を取得するには

Swiftでマイクから拾った音を、低音10%、中音30%、高音60%のようにそれぞれの音域を割合で表示させるにはどうすればいいでしょうか。フーリエ変換について調べてみましたがSwift3で使えそうなサンプルが無く理解出来ませんでした。

行動規範の内容に同意します

回答3件

func
1        audioRecorder.updateMeters()
2        let dB = audioRecorder.averagePower(forChannel: 0)
3        let atai = max(0, (dB + 77)) / 77
4        nami1.progress = atai
5        
6    }

*閾値＝77
//・騒がしい場所で使うときは閾値を上げる。
//・大きな声を出せない場所では閾値を下げる。

投稿2016/12/07 11:52

kei1990s

総合スコア25

この辺を参考にしてみてはいかがでしょうか。
https://github.com/ooper-shlab/aurioTouch2.0-Swift

投稿2016/11/30 02:17

pebble8888

総合スコア390

自身ないですが音声分析に興味があるので少し調べてみました。

フーリエ変換について探してみるとvDSPのSwift3対策などのページがありました。同じ方がQiitaでC/C++で書かれたDSPライブラリーを用いた音声分析の記事をいくつかアップされているのでそれらが参考になりそうな気がしました。Swift素人なのでよくは分かりませんが割と最近の記事なのでvDSPというライブラリーより便利で高速なSwift3用のライブラリーはないのかなという印象です。記事を拾い読みするとSwiftのUnsafePointerといったアドレスを直接操作する機構を使ってやるようなことが書いてあるのでそれなりに低レベルな処理に慣れてないと敷居が高そうでした。逆にいえばその辺りを攻略できれば利用はできそうです。

次にFFTの結果を出せたとして、高中低の比率をどうやって出すのが適切なのか(素人考えですが)素朴に考えると高中低でグループ分けしたときの３つの音圧レベルの比率とするのかなと思いました。音圧どうしの比率を採ること自体に物理的な意味があるのか疑問ですがスペクトルメーターが音圧表示であることが普通だと思うので、３つの音域のメーターが同じくらいの高さなら1:1:1と解釈することにしようと考えると「なんとなくそんなものでいいのかな」と思えたのです。

「音圧、音圧レベル」などで検索するとこういったものの物理的な意味や計算方法が載っているページがみつかると思いますのでそれらが参考になると思います。例えばエネルギーが振幅の二乗と周波数の二乗に比例するとか、音圧がエネルギーの（最小音との比率）の対数になるとかです。そういう関係を使ってFFTの結果の振幅をグループ毎に音圧レベルとして集計することを自分はイメージしました。

投稿2016/11/29 13:02