質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.77%

IOS10の音声認識

受付中

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 1,900

randr

score 202

作成したコード

http://dev.classmethod.jp/smartphone/iphone/try-ios10-speech-recognizer/
を参考にXamarin.iOSで以下のコードを作成しました。

using System;
using AVFoundation;
using UIKit;
using Foundation;
using Speech;

namespace SpeechRecognizerSample
{
    public partial class ViewController : UIViewController
    {
        readonly SFSpeechRecognizer speechRecognizer = new SFSpeechRecognizer(new NSLocale("ja-JP"));
        readonly AVAudioEngine audioEngine = new AVAudioEngine();
        SFSpeechAudioBufferRecognitionRequest recognitionRequest;
        SFSpeechRecognitionTask recognitionTask;

        protected ViewController(IntPtr handle) : base(handle)
        {
            // Note: this .ctor should not contain any initialization logic.
        }

        public override void ViewDidLoad()
        {
            base.ViewDidLoad();

            button.Enabled = true;
            button.SetTitle("音声認識スタート", UIControlState.Normal);

            button.TouchUpInside += (_, e) =>
            {
                if(audioEngine.Running)
                {
                    audioEngine.Stop();
                    recognitionRequest?.EndAudio();
                    button.Enabled = false;
                    button.SetTitle("停止中", UIControlState.Disabled);
                }
                else
                {
                    startRecording();
                    button.SetTitle("音声認識を中止", UIControlState.Normal);
                }
            };
        }


        public override void ViewDidAppear(bool animated)
        {
            base.ViewDidAppear(animated);

            SFSpeechRecognizer.RequestAuthorization((authStatus) =>
            {
                NSOperationQueue.MainQueue.AddOperation(() =>
                {
                    switch(authStatus)
                    {
                        case SFSpeechRecognizerAuthorizationStatus.Authorized:
                            button.Enabled = true;
                            break;
                        case SFSpeechRecognizerAuthorizationStatus.Denied:
                            button.Enabled = false;
                            button.SetTitle("音声認識へのアクセスが拒否されています", UIControlState.Disabled);
                            break;
                        case SFSpeechRecognizerAuthorizationStatus.Restricted:
                            button.Enabled = false;
                            button.SetTitle("この端末で音声認識はできません", UIControlState.Disabled);
                            break;
                        case SFSpeechRecognizerAuthorizationStatus.NotDetermined:
                            button.Enabled = false;
                            button.SetTitle("音声認識はまだ許可されていません", UIControlState.Disabled);
                            break;
                    }
                });
            });
        }

        void refreshTask()
        {
            recognitionTask?.Cancel();
            recognitionTask = null;
        }
        void startAudioEngine()
        {
            audioEngine.Prepare();
            NSError err;
            if(!audioEngine.StartAndReturnError(out err))
            {
                throw new Exception(err.Description);
            }

            label.Text = "どうぞしゃべってください";
        }
        void startRecording()
        {
            NSError err;
            refreshTask();

            var audioSession = AVAudioSession.SharedInstance();
            err = audioSession.SetCategory(AVAudioSessionCategory.Record);
            audioSession.SetMode(AVAudioSession.ModeMeasurement, out err);
            err = audioSession.SetActive(true, AVAudioSessionSetActiveOptions.NotifyOthersOnDeactivation);

            recognitionRequest = new SFSpeechAudioBufferRecognitionRequest();
            var inputNode = audioEngine.InputNode;
            if(inputNode == null)
            {
                throw new InvalidProgramException("Audio engine has no input node");
            }
            recognitionRequest.ShouldReportPartialResults = true;

            recognitionTask = speechRecognizer.GetRecognitionTask(recognitionRequest, (result, error) =>
            {
                var isFinal = false;
                if(result != null)
                {
                    label.Text = result.BestTranscription.FormattedString;
                    isFinal = result.Final;
                }
                if(error != null || isFinal)
                {
                    audioEngine.Stop();
                    inputNode.RemoveTapOnBus(0);

                    recognitionRequest = null;
                    recognitionTask = null;

                    button.Enabled = true;
                    button.SetTitle("音声認識スタート", UIControlState.Normal);
                }
            });

            var recordingFormat = inputNode.GetBusOutputFormat(0);
            inputNode.InstallTapOnBus(0, 1024, recordingFormat, (buffer, when) =>
            {
                recognitionRequest?.Append(buffer);
            });
            startAudioEngine();
        }
     }
}


画面はラベルとボタンのみです。

困っていること

ボタンをタップして開始し、しゃべると音声認識中につ単語や文は認識されます。
しかし、1文字のみの場合に以下のように動作してしまい困っています。
例:

  • 音声「あ」
    音声認識中:結果が返ってこない
    ボタンタップで終了後:「あ」が返ってくる
  • 音声「か」
    音声認識中:「家」が返ってくる
    ボタンタップで終了後:「家」「間」などが返ってくる
  • 音声「け」:
    音声認識中:「家」が返ってくる
    ボタンタップで終了後:「家」が返ってくる
  • 音声「さ」:
    音声認識中:「左」が返ってくる
    ボタンタップで終了後:「さ」が返ってくる
  • 音声「く」
    音声認識中:「9」が返ってくる
    ボタンタップで終了後:「9」が返ってくる

実現したいこと

かな1文字を認識対象としたいです。
長さが指定できなさそうなので、その場合は先頭文字で判断できたらと考えています。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

0

recognitionTask = speechRecognizer.GetRecognitionTask(recognitionRequest, (result, error) =>
{
// some method...
}


で定義されている認識結果を取得するコールバックが呼ばれるタイミングは音声バッファがたまり,それを認識サーバに送信して認識結果が返ってきたorエラーが起こった時に呼ばれます.
1文字以外の音声を認識している際はこの音声バッファが1文字以上の長さのものだったため,ちゃんと認識結果が返ってきている,という風に感じたのかと思います.

解決策として考えられるのは(試してはいませんが),

  1. バッファサイズを小さくしてみる
  2. 明示的にボタンを押して音声入力が完了したことを伝える
  3. ボタンを押してから数秒だけマイクをオンにするようにタイマーを回し,一定時間が過ぎたらボタンが押された時と同じような処理を行い入力が終了したと認識させる

の3点かなと思います.

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

0

はじめまして、1文字だとうまく認識されないとのことですね。
SpeechFrameworkを用いてはおそらく現状では難しいかと思います。

自分はネイティブで音声認識アプリを作っていますが、
やはり単語や文章だとそれなりの精度で認識してくれますが、
文字数が短くなればなるほど精度が低くなります。

おそらく理由は、前後の音声情報も参考にして、
認識した文章の精度をあげているためかと思います。
なので一文字だと精度が低いのかと。

何かわかりましたら、自分も教えていただきたいくらいです。
よろしくお願い致します。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.77%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る