実現したいこと
Pythonのmlxライブラリを用いてWhisperで文字起こしをしたいです。
- GitHubに記載のサンプルを動かしたところ、エラーが発生したので対処したいです
前提
Apple siliconに対応したライブラリmlxのサンプル、Whisperを動かしています。環境構築を実施後、iPhoneで録音したm4aファイルをフォルダに置き、ソースコードを実行しています。
発生している問題・エラーメッセージ
whisper/whisper/decoding.py", line 550, in _get_audio_features raise TypeError( TypeError: audio_features has an incorrect dtype: float32
該当のソースコード
Python
1import whisper 2text = whisper.transcribe(speech_file)["text"]
を実行したところ、上記のエラーメッセージとなります。該当する550行目を含む関数の定義は以下となります。
python
1 def _get_audio_features(self, mel: mx.array): 2 if self.options.fp16: 3 mel = mel.astype(mx.float16) 4 5 if mel.shape[-2:] == ( 6 self.model.dims.n_audio_ctx, 7 self.model.dims.n_audio_state, 8 ): 9 # encoded audio features are given; skip audio encoding 10 audio_features = mel 11 else: 12 audio_features = self.model.encoder(mel) 13 14 if audio_features.dtype != (mx.float16 if self.options.fp16 else mx.float32): 15 raise TypeError( 16 f"audio_features has an incorrect dtype: {audio_features.dtype}" 17 )
試したこと
astype(mx.float32)をどこかに入れれば良いのか?とも思いましたが、各関数の連携を読みきれていません。
勉強不足ではありますが、どなたかご教示いただけませんでしょうか?
補足情報(FW/ツールのバージョンなど)
使用しているマシンはMac mini/ M2 Pro / 16GBメモリです。
CondaによりPython3.10環境を構築し、あとは GitHubに記載通りの手順を踏んで環境設定をしています。
GitHubのページはこちらになります。
https://github.com/ml-explore/mlx-examples/tree/main/whisper
参考にさせていただいたページ
https://zenn.dev/noplan_inc/articles/f68a885497922f
回答1件
あなたの回答
tips
プレビュー