音声認識について理解できない概念があります

###inputNodeとは？
音声認識のサンプルコードをアップルの公式サイトからダウンロードして勉強をしているのですが,
inputNodeという概念が理解できません。

###該当のソースコード

private func startRecording() throws {

        // Cancel the previous task if it's running.
        if let recognitionTask = recognitionTask {
            recognitionTask.cancel()
            self.recognitionTask = nil
        }
        
        let audioSession = AVAudioSession.sharedInstance()
        try audioSession.setCategory(AVAudioSessionCategoryRecord)
        try audioSession.setMode(AVAudioSessionModeMeasurement)
        try audioSession.setActive(true, with: .notifyOthersOnDeactivation)
        
        recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
        
        guard let inputNode = audioEngine.inputNode else { fatalError("Audio engine has no input node") }
        guard let recognitionRequest = recognitionRequest else { fatalError("Unable to created a SFSpeechAudioBufferRecognitionRequest object") }
        
        // Configure request so that results are returned before audio recording is finished
        recognitionRequest.shouldReportPartialResults = true
        
        // A recognition task represents a speech recognition session.
        // We keep a reference to the task so that it can be cancelled.
        recognitionTask = speechRecognizer.recognitionTask(with: recognitionRequest) { result, error in
            var isFinal = false
            
            if let result = result {
                self.textView.text = result.bestTranscription.formattedString
                isFinal = result.isFinal
            }
            
            if error != nil || isFinal {
                self.audioEngine.stop()
                inputNode.removeTap(onBus: 0)
                
                self.recognitionRequest = nil
                self.recognitionTask = nil
                
                self.recordButton.isEnabled = true
                self.recordButton.setTitle("Start Recording", for: [])
            }
        }
        
        let recordingFormat = inputNode.outputFormat(forBus: 0)
        inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer: AVAudioPCMBuffer, when: AVAudioTime) in
            self.recognitionRequest?.append(buffer)
        }
        
        audioEngine.prepare()
        
        try audioEngine.start()
        
        textView.text = "(Go ahead, I'm listening)"
    }

###上記のソースコードではどんな動きをしている？
公式リファレンスでinputNodeの定義を読みましたが、nodeの理解ありきで説明がされているので理解できませんでした。
上記のソースコードではどんな動きをしているのでしょうか？

###URL
https://developer.apple.com/library/content/samplecode/SpeakToMe/Listings/SpeakToMe_ViewController_swift.html#//apple_ref/doc/uid/TP40017110-SpeakToMe_ViewController_swift-DontLinkElementID_6

行動規範の内容に同意します

回答2件

AVAudio engineの入力のノードです。このコードのようにaudioEngine.inputNodeと書くとデフォルトの音声入力(iOSではマイク)から入力が入ってきます。
認識処理については使ったことがないので詳しいことはわかりませんが、コードを見るとそれらの準備をした後でマイクからの入力はinputNode.installTapで指定された処理にbufferサイズ単位でbufferを通じてPCM形式で渡されてその中の処理で認識処理に渡されるということになっているようです。

投稿2017/05/20 23:02