前提
Pythonで音声の感情認識をしていて、librosaライブラリ
を用いて音声波形をメルスペクトログラムに変換しています。
そのメルスペクトログラムを画像データとして機械学習で画像分類(CNN)しています。
実現したいこと
学習データとしてメルスペクトログラム画像を用いるので、メルスペクトログラム画像のカラースケールが下図のような黒紫白になっているものや
これらのどちらかに統一したいです。
発生している問題・エラーメッセージ
メルスペクトログラム画像のカラースケールが黒紫白もしくは赤青の2種類のうちどちらかになってしまうこと。
該当のソースコード
環境はpython3.9.13でlibrosa0.9.2を使用しています。
y, sr = librosa.load("audio.wav", sr=16000) melspec = librosa.feature.melspectrogram( y=y, sr=sr, n_fft=2048, win_length=512, hop_length=512) melspec = librosa.power_to_db(melspec) plt.figure(figsize=(8, 8)) librosa.display.specshow(melspec, sr=16000) plt.savefig("img.png") plt.close() img = Image.open("img.png") img = img.convert("RGB") img = img.resize((250, 250)) data = np.asarray(img)
試したこと
RGBがBGRになっているのかなと思い、convert("RGB")を試してみましたが変化なしでした。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2023/01/06 08:25