質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.33%

  • Python 3.x

    7412questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Google API

    569questions

    Googleは多種多様なAPIを提供していて、その多くはウェブ開発者向けのAPIです。それらのAPIは消費者に人気なGoogleのサービス(Google Maps, Google Earth, AdSense, Adwords, Google Apps,YouTube等)に基づいています。

  • Google Cloud Platform

    175questions

    Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。

Google Speech APIでの時間付き出力の方法

受付中

回答 0

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 631

kohhi

score 12

前提・実現したいこと

Google Speech API を使って、音声のテキスト出力を行っているのですが、
出力に、各単語が音声ファイル内のどの時間に発話されたものであるかを知りたいのですが、どのように行えばいいかわかりません、お詳しい方宜しくお願いします。

https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/speech/cloud-client/transcribe_async.py

上記のコードにマイナーチェンジを行ったもので出力を行っています。ここにどのようにコードを足せば、時間つきのファイルになるのかを知りたいです

該当のソースコード

!/usr/bin/env python

  • Copyright 2017 Google Inc. All Rights Reserved.-
  • Licensed under the Apache License, Version 2.0 (the "License");-
  • you may not use this file except in compliance with the License.-
  • You may obtain a copy of the License at-
  •  

-      http://www.apache.org/licenses/LICENSE-2.0-

  • Unless required by applicable law or agreed to in writing, software-
  • distributed under the License is distributed on an "AS IS" BASIS,-
  • WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.-
  • See the License for the specific language governing permissions and-
  • limitations under the License.-

---Google Cloud Speech API sample application using the REST API for async
batch processing.

Example usage:
python transcribe_async.py resources/audio.raw

python transcribe_async.py gs://cloud-samples-tests/speech/brooklyn.flac

import argparse
import io
import time

def transcribe_file(speech_file):
---Transcribe the given audio file asynchronously.---
from google.cloud import speech
speech_client = speech.Client()

with io.open(speech_file, 'rb') as audio_file:
content = audio_file.read()
audio_sample = speech_client.sample(
content,
source_uri=None,
encoding='FLAC',
sample_rate=16000)

operation = speech_client.speech_api.async_recognize(audio_sample, language_code='en-GB', speech_context=['<登録した単語>'],  retry_count = 100
while retry_count > 0 and not operation.complete:
retry_count -= 1
time.sleep(2)
operation.poll()

if not operation.complete:
print('Operation not complete and retry limit reached.')
return

alternatives = operation.results
for alternative in alternatives:
print('Transcript: {}'.format(alternative.transcript))
print('Confidence: {}'.format(alternative.confidence))

  • [END send_request] -

def transcribe_gcs(gcs_uri):
---Asynchronously transcribes the audio file specified by the gcs_uri.---
from google.cloud import speech
speech_client = speech.Client()

audio_sample = speech_client.sample(
content=None,
source_uri=gcs_uri,
encoding='FLAC',
sample_rate=16000)

operation = speech_client.speech_api.async_recognize(audio_sample)

retry_count = 100
while retry_count > 0 and not operation.complete:
retry_count -= 1
time.sleep(2)
operation.poll()

if not operation.complete:
print('Operation not complete and retry limit reached.')
return

alternatives = operation.results
for alternative in alternatives:
print('Transcript: {}'.format(alternative.transcript))
print('Confidence: {}'.format(alternative.confidence))
-[END send_request_gcs]-

if name == 'main':
parser = argparse.ArgumentParser(
description=doc,
formatter_class=argparse.RawDescriptionHelpFormatter)
parser.add_argument(
'path', help='File or GCS path for audio file to be recognized')
args = parser.parse_args()
if args.path.startswith('gs://'):
transcribe_gcs(args.path)
else:
transcribe_file(args.path)

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正の依頼

  • can110

    2017/04/04 00:37

    「マイナーチェンジ」したソースを提示ください。

    キャンセル

  • kohhi

    2017/04/04 19:07

    ソース提示致しました。宜しくお願い致します。

    キャンセル

  • can110

    2017/04/04 23:04

    ソース中に「各単語」を識別する情報(処理)がないようですが、どの部分か明示ください。

    キャンセル

まだ回答がついていません

同じタグがついた質問を見る

  • Python 3.x

    7412questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • Google API

    569questions

    Googleは多種多様なAPIを提供していて、その多くはウェブ開発者向けのAPIです。それらのAPIは消費者に人気なGoogleのサービス(Google Maps, Google Earth, AdSense, Adwords, Google Apps,YouTube等)に基づいています。

  • Google Cloud Platform

    175questions

    Google Cloud Platformは、Google社がクラウド上で提供しているサービス郡の総称です。エンドユーザー向けサービスと同様のインフラストラクチャーで運営されており、Webサイト開発から複雑なアプリ開発まで対応可能です。