質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.10%

Android SpeechRecognizerで音声が認識されない原因を知りたい

受付中

回答 0

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 84

Haruto513

score 46

Androidで音声認識のアプリを作成できないか検討しています。
RecognizerIntentで、音声を認識したら画面の文字が認識した文字に代わるというサンプルアプリを作成したのですが、音声の認識がまともに行えていません。

以下のようなコードで実装しています。

<?xml version="1.0" encoding="utf-8"?>
<manifest xmlns:android="http://schemas.android.com/apk/res/android"
    package="jp.co.appnet.speechrecogsample">
    <uses-permission android:name="android.permission.RECORD_AUDIO" />
    <uses-permission android:name="android.permission.INTERNET"/>
.
.
.
import android.Manifest
import android.content.Intent
import android.content.pm.PackageManager
import android.os.Bundle
import android.os.Handler
import android.speech.RecognizerIntent
import android.speech.SpeechRecognizer
import android.widget.Toast
import androidx.appcompat.app.AppCompatActivity
import androidx.core.app.ActivityCompat
import kotlinx.android.synthetic.main.activity_main.*
import java.util.*


class MainActivity : AppCompatActivity() {

    private var recognizer: SpeechRecognizer? = null
    private var recognizeActive = false

    override fun onCreate(savedInstanceState: Bundle?) {
        super.onCreate(savedInstanceState)
        setContentView(R.layout.activity_main)

        initRecognizer()

        tv_result.text = "ここに結果が出る予定"

        val permission = Manifest.permission.RECORD_AUDIO
        if (ActivityCompat.checkSelfPermission(this, permission) != PackageManager.PERMISSION_GRANTED){
            ActivityCompat.requestPermissions(this, arrayOf(permission), 0)
            return
        }

    }

    override fun onResume() {
        super.onResume()
        startRecognizer()
    }

    override fun onPause() {
        super.onPause()
    }

    override fun onRequestPermissionsResult(requestCode: Int, permissions: Array<out String>, grantResults: IntArray) {
        super.onRequestPermissionsResult(requestCode, permissions, grantResults)
        val result = grantResults.contentToString()
        if (result == "[0]" || result == "[-1]") {
            startRecognizer()
        }
    }

    private var  recognizerIntent: Intent? = null

    //初期化
    private fun initRecognizer() {
        recognizerIntent = Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH)
        recognizerIntent?.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL, RecognizerIntent.LANGUAGE_MODEL_FREE_FORM)
        recognizerIntent?.putExtra(RecognizerIntent.EXTRA_PREFER_OFFLINE, true)
        recognizerIntent?.putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.JAPANESE.toString())

        recognizer = SpeechRecognizer.createSpeechRecognizer(this)
        recognizer!!.setRecognitionListener(RecognitionListener())
    }

    private fun startRecognizer() {
        println("startRecognizer")
        recognizer!!.startListening(recognizerIntent)
    }

    private inner class RecognitionListener : android.speech.RecognitionListener {

        override fun onResults(results: Bundle?) {

            //ここで結果
            val recData = results!!.getStringArrayList(SpeechRecognizer.RESULTS_RECOGNITION)
            println(recData)
            if(recData!!.size > 0) {
                if (recData[0] != "") {
                  var recordtxt = ""
                  for(record in recData) {
                      recordtxt += record + "\n"
                  }
                  tv_result.text = recordtxt
                }
            }
            recognizeActive = false

            try { Thread.sleep(1000) } catch (e: Exception) { }
            startRecognizer()
        }

        override fun onReadyForSpeech(params: Bundle?) {
            println("onReadyForSpeech")
            recognizeActive = true
        }

        override fun onError(error: Int) {
            val errorText = when(error) {
                SpeechRecognizer.ERROR_AUDIO -> "オーディオ録音エラー。"
                SpeechRecognizer.ERROR_CLIENT -> "クライアントサイドエラー"
                SpeechRecognizer.ERROR_INSUFFICIENT_PERMISSIONS -> "権限不足エラー"
                SpeechRecognizer.ERROR_NETWORK -> "通信エラー"
                SpeechRecognizer.ERROR_NETWORK_TIMEOUT -> "通信タイムアウト"
                SpeechRecognizer.ERROR_NO_MATCH -> "認識失敗エラー"
                SpeechRecognizer.ERROR_RECOGNIZER_BUSY ->  "ビジー"
                SpeechRecognizer.ERROR_SERVER -> "サーバーエラー"
                SpeechRecognizer.ERROR_SPEECH_TIMEOUT -> "スピーチタイムアウト"
                else -> "その他のエラー"
            }
            Toast.makeText(applicationContext, errorText, Toast.LENGTH_SHORT).show()
            println(errorText)

            try { Thread.sleep(1000) } catch (e: Exception) { }
            startRecognizer()
        }

        override fun onBeginningOfSpeech() {}
        override fun onEndOfSpeech() {}
        override fun onBufferReceived(buffer: ByteArray?) {}
        override fun onEvent(eventType: Int, params: Bundle?) {}
        override fun onPartialResults(partialResults: Bundle?) {}
        override fun onRmsChanged(rmsdB: Float) {}

    }
apply plugin: 'com.android.application'
apply plugin: 'kotlin-android'
apply plugin: 'kotlin-android-extensions'

android {
    compileSdkVersion 29
    buildToolsVersion "29.0.3"

    defaultConfig {
        applicationId "jp.co.appnet.speechrecogsample"
        minSdkVersion 28
        targetSdkVersion 29
        versionCode 1
        versionName "1.0"

        testInstrumentationRunner "androidx.test.runner.AndroidJUnitRunner"
    }

    buildTypes {
        release {
            minifyEnabled false
            proguardFiles getDefaultProguardFile('proguard-android-optimize.txt'), 'proguard-rules.pro'
        }
    }
}

dependencies {
    implementation fileTree(dir: "libs", include: ["*.jar"])
    implementation "org.jetbrains.kotlin:kotlin-stdlib:$kotlin_version"
    implementation 'androidx.core:core-ktx:1.3.0'
    implementation 'androidx.appcompat:appcompat:1.1.0'
    implementation 'androidx.constraintlayout:constraintlayout:1.1.3'
    testImplementation 'junit:junit:4.12'
    androidTestImplementation 'androidx.test.ext:junit:1.1.1'
    androidTestImplementation 'androidx.test.espresso:espresso-core:3.2.0'

}

実機で実行し端末に向かって発話してみても、延々と以下のようなログが出力されます。

I/System.out: onReadyForSpeech
I/System.out: スピーチタイムアウト
I/System.out: startRecognizer
I/System.out: onReadyForSpeech
I/System.out: スピーチタイムアウト
I/System.out: startRecognizer
I/System.out: onReadyForSpeech
I/System.out: スピーチタイムアウト
I/System.out: startRecognizer
.
.
.

たまに結果が返ってきますが、ひらがな一文字だったりと極端に短かったり意図しない言葉だったりします。また、何もしゃべっていないのに文字が返ってきたりします。
タブレットのマイクが悪いのかと最初は疑い、グーグル検索で音声認識を試してみたら、小声での発話でも認識しました。
認識が上手く行かないのは、コードの書き方に致命的な箇所があるからなのでしょうか。

どなたか知見をお持ちの方がいらっしゃいましたら、ご教示頂けると助かります。

開発環境
Windows 10 
Android Studio 4.0
テスト実機のAPIレベル 28

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.10%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる