Google Speech Recognitionを使って「カタカナ」を返す方法

Question

googleの無料音声認識である「Google Speech Recognition」で
人名の音声ファイルを認識させると
「さとうけんじです」->「佐藤健司です」と勝手に漢字にしていまいますが
日本人の名前は音声から判別することはほぼ不可能なので高い確率でこの変換された漢字は不正解です
これを単純に「サトウケンジデス」とカタカナまたはひらがなで発した音声を返すようにしたいのですが
どなたか方法を知っている方おられますでしょうか。

「Google Speech Recognition」のことを調べると有料の「Google Cloud Speech API」のことばかりが出てきて
目的の情報にたどり着けませんでした

「Google Speech Recognition」にこだわりはないので
他に方法をご存じの方がおりましたらお教えいただけますと幸いです

「Google Speech Recognition」は様々な利用方法がありますが
パイソンとspeech_recognitionを使ったソースの例を一応記述しておきます
この組み合わせにもこだわりはありません

```ここに言語を入力
import speech_recognition as sr
AUDIO_FILE = 'satokenji.wav'
r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
    audio = r.record(source)
result = r.recognize_google(audio, language='ja')
print('result:', result)
```
result:佐藤健司です

Answer

２年以上の前のご質問のためもう不要かと思いますが、今後見る方の参考になればと思い投稿します。

実装環境はReactですが、react-speech-recognitionを使用して音声認識させた後、[gooラボのひらがな化API](https://labs.goo.ne.jp/api/jp/hiragana-translation/)を使用して、ひらがなに変換しました。

文字認識の度にAPIに繋ぐとアクセス制限にかかる可能性があるので、データが多い場合は正規表現を使用してfinalTranscriptから漢字が含まれる場合のみ抽出し、APIに繋げるなどの対応をした方がいいかもしれません。

関連した質問