質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.58%

Python3で音の識別を行いたい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 492

maguro2020

score 24

前提・実現したいこと

はてなブログ Webデータレポート 生活音を機械学習してみた

上記のリンクを参考にPython3を用いて、音声(wav)の機械学習をしたいと考えております。wavファイルのスペクトグラムや振幅の表示はできたのですが、MFCC(メル周波数ケプストラム係数)のあたりから上手くいかず、wavファイルからベクトルを生成することができません。

発生している問題・エラーメッセージ

Error: unknown format: 65534

該当のソースコード

#coding:utf-8
import wave
import numpy as np
import scipy.signal
import scipy.fftpack
import scipy.fftpack.realtransforms
import scipy.io.wavfile

def wavread(filename):
    wf = wave.open(filename, "r")
    fs = wf.getframerate()
    x = wf.readframes(wf.getnframes())
    x = np.frombuffer(x, dtype="int16") / 32768.0  # (-1, 1)に正規化
    wf.close()
    return x, float(fs)

def hz2mel(f):
    """Hzをmelに変換"""
    return 1127.01048 * np.log(f / 700.0 + 1.0)

def mel2hz(m):
    """melをhzに変換"""
    return 700.0 * (np.exp(m / 1127.01048) - 1.0)

def melFilterBank(fs, nfft, numChannels):
    """メルフィルタバンクを作成"""
    # ナイキスト周波数(Hz)
    fmax = fs / 2
    # ナイキスト周波数(mel)
    melmax = hz2mel(fmax)
    # 周波数インデックスの最大数
    nmax = nfft / 2
    # 周波数解像度(周波数インデックス1あたりのHz幅)
    df = fs / nfft
    # メル尺度における各フィルタの中心周波数を求める
    dmel = melmax / (numChannels + 1)
    melcenters = np.arange(1, numChannels + 1) * dmel
    # 各フィルタの中心周波数をHzに変換
    fcenters = mel2hz(melcenters)
    # 各フィルタの中心周波数を周波数インデックスに変換
    indexcenter = np.round(fcenters / df)
    # 各フィルタの開始位置のインデックス
    indexstart = np.hstack(([0], indexcenter[0:numChannels - 1]))
    # 各フィルタの終了位置のインデックス
    indexstop = np.hstack((indexcenter[1:numChannels], [nmax]))

    filterbank = np.zeros((numChannels, nmax))
    for c in np.arange(0, numChannels):
        # 三角フィルタの左の直線の傾きから点を求める
        increment= 1.0 / (indexcenter[c] - indexstart[c])
        for i in np.arange(indexstart[c], indexcenter[c]):
            i=int(i)
            filterbank[c, i] = (i - indexstart[c]) * increment
        # 三角フィルタの右の直線の傾きから点を求める
        decrement = 1.0 / (indexstop[c] - indexcenter[c])
        for i in np.arange(indexcenter[c], indexstop[c]):
            i=int(i)
            filterbank[c, i] = 1.0 - ((i - indexcenter[c]) * decrement)

    return filterbank, fcenters

def preEmphasis(signal, p):
    """プリエンファシスフィルタ"""
    # 係数 (1.0, -p) のFIRフィルタを作成
    return scipy.signal.lfilter([1.0, -p], 1, signal)

def mfcc(signal, nfft, fs, nceps):
    """信号のMFCCパラメータを求める
    signal: 音声信号
    nfft  : FFTのサンプル数
    nceps : MFCCの次元"""
    # プリエンファシスフィルタをかける
    p = 0.97         # プリエンファシス係数
    signal = preEmphasis(signal, p)

    # ハミング窓をかける
    hammingWindow = np.hamming(len(signal))
    signal = signal * hammingWindow

    # 振幅スペクトルを求める
    spec = np.abs(np.fft.fft(signal, nfft))[:nfft/2]
    fscale = np.fft.fftfreq(nfft, d = 1.0 / fs)[:nfft/2]

    # メルフィルタバンクを作成
    numChannels = 20  # メルフィルタバンクのチャネル数
    df = fs / nfft   # 周波数解像度(周波数インデックス1あたりのHz幅)
    filterbank, fcenters = melFilterBank(fs, nfft, numChannels)


    # 定義通りに書いた場合
    # 振幅スペクトルに対してフィルタバンクの各フィルタをかけ、振幅の和の対数をとる
    mspec = np.log10(np.dot(spec, filterbank.T))


    # 離散コサイン変換
    ceps = scipy.fftpack.realtransforms.dct(mspec, type=2, norm="ortho", axis=-1)

    # 低次成分からnceps個の係数を返す
    return ceps[:nceps]

#wavファイルと次元数を入れてMFCCを抽出
#   nfft:FFTのサンプル数 1024, 2048, 4096
#   nceps:MFCCの次元数 大体12次元が多い
#   ※ fs * cuttime >= nfft/2 を満たす値を与えなければいけない
def get_feature(wavfile,nfft,nceps):
    # 音声をロード
    wav, fs = wavread(wavfile)
    t = np.arange(0.0, len(wav) / fs, 1/fs)

    # 音声波形の中心部分を切り出す
    center = len(wav) / 2  # 中心のサンプル番号
    cuttime = 0.8         # 切り出す長さ [s]
    wavdata = wav[int(center - cuttime/2*fs) : int(center + cuttime/2*fs)]

    ceps = mfcc(wavdata, nfft, fs, nceps)
    return ceps.tolist()

if __name__ == "__main__":
    wavfile= "call01.wav" #1
    nfft=2048
    nceps=12
    tmp = get_feature(wavfile,nfft,nceps)
    print (tmp) #2

試したこと

前回の質問より、ほとんどリンク元のコードのまま実行してみました。変更点といたしましては、下から5行目(#1)と1行目(#2)のコードの
1.参照するファイル名の変更
2.printに()をつけたこと。(リンク元のコードがPython2.7のため)
を行いました。

少し調べてみたところ、
Why GitHub? wave.Error: unknown format: 65534 #129
上記でも似たようなエラーで困っている人を見つけ、色々とコードをいじってみてはいるのですが、上手くいきません。

補足情報(FW/ツールのバージョンなど)

Python3.6.5です

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • maguro2020

    2020/05/14 21:36

    元のdef wavread(filename):の「filename」のところを'call01.wav'に変更いたしましたところ、
    SyntaxError: invalid syntax
    というエラーメッセージが表示され、「filename」のままですと
    NameError: name 'wf' is not defined
    と表示されたため、書き換えを行いました。
    Python以前に、自分のプログラミングの知識不足で「引数」がどの部分なのかもわからず、未だにコードを調べている途中でした。中途半端かつわかりづらい質問をしてしまい申し訳ありません。もう少し自分で調べてみたいと思います。

    キャンセル

  • meg_

    2020/05/14 23:56

    「Error: unknown format: 65534」
    上記はエラーメッセージの全文ですか?

    キャンセル

  • maguro2020

    2020/05/15 00:04

    「Error: unknown format: 65534」の上記にはとても細かく約56行ほどのコードが出てきており、
    '''#コード
    Error Traceback (most recent call last)
    <ipython-input-134-fdf415abea31> in <module>
    3 nfft=2048
    4 nceps=12
    ----> 5 tmp = get_feature(wavfile,nfft,nceps)
    6 print (tmp)

    <ipython-input-132-13313078b2d6> in get_feature(wavfile, nfft, nceps)
    5 def get_feature(wavfile,nfft,nceps):
    6 # 音声をロード
    ----> 7 wav, fs = wavread(wavfile)
    8 t = np.arange(0.0, len(wav) / fs, 1/fs)
    9

    <ipython-input-130-fbc23ac4b9eb> in wavread(filename)
    1 def wavread(filename):
    ----> 2 wf = wave.open(filename, "r")
    3 fs = wf.getframerate()
    4 x = wf.readframes(wf.getnframes())
    5 x = np.frombuffer(x, dtype="int16") / 32768.0 # (-1, 1)に正規化

    ~/.pyenv/versions/3.6.5/lib/python3.6/wave.py in open(f, mode)
    497 mode = 'rb'
    498 if mode in ('r', 'rb'):
    --> 499 return Wave_read(f)
    500 elif mode in ('w', 'wb'):
    501 return Wave_write(f)

    ~/.pyenv/versions/3.6.5/lib/python3.6/wave.py in __init__(self, f)
    161 # else, assume it is an open file object already
    162 try:
    --> 163 self.initfp(f)
    164 except:
    165 if self._i_opened_the_file:

    ~/.pyenv/versions/3.6.5/lib/python3.6/wave.py in initfp(self, file)
    141 chunkname = chunk.getname()
    142 if chunkname == b'fmt ':
    --> 143 self._read_fmt_chunk(chunk)
    144 self._fmt_chunk_read = 1
    145 elif chunkname == b'data':

    ~/.pyenv/versions/3.6.5/lib/python3.6/wave.py in _read_fmt_chunk(self, chunk)
    258 self._sampwidth = (sampwidth + 7) // 8
    259 else:
    --> 260 raise Error('unknown format: %r' % (wFormatTag,))
    261 self._framesize = self._nchannels * self._sampwidth
    262 self._comptype = 'NONE'

     Error: unknown format: 65534 '''
    となっております。見づらくなってしまい申し訳ありません。

    キャンセル

回答 1

checkベストアンサー

+1

def wavread(): #1
    wf = wave.open('call01.wav', "r") #2
def get_feature(wavfile,nfft,nceps):
    # 音声をロード
    wav, fs = wavread('call01.wav')


を元に戻しましょう。

def wavread(filename):
    wf = wave.open(filename, "r")
def get_feature(wavfile,nfft,nceps):
    # 音声をロード
    wav, fs = wavread(wavfile)


参照元のコードのままでエラーが出る場合は、そのときにまた質問してください。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/05/15 12:03

    エラーが発生したときのnumChannels, nmaxの値を調べれば原因が分かるでしょう。
    filterbank = np.zeros((numChannels, nmax))の行の直前でnumChannels, nmaxの値をprint()で確かめてください。

    キャンセル

  • 2020/05/15 12:06

    たぶんここですね。
    def melFilterBank(fs, nfft, numChannels) 関数内の「nmax = nfft / 2」を「nmax = nfft //2」にすれば良いかと思います。

    キャンセル

  • 2020/05/15 14:04

    重ね重ねご指摘いただきありがとうございます。ただいまmeg様に指摘されたところを変更し、実行致しましたところ12次ベクトルを取り出すことに成功致しました。お忙しい中、自分の質問に真摯に答えてくださり、誠にありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.58%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る