問題

AWSでつくるAIプログラミング入門という本をやっているのですが、Transcribeが現在日本語対応しているので、修正をして実行したところ以下のエラーになるので原因を教えていただきたいです。

準備 : scribe_file_in.mp3に日本語音声が入っているファイルを用意
以下のコードを実行して、文字に起こします。

import boto3
import json
import pprint
import time
import uuid
import urllib

bucket = str(uuid.uuid1())
print('bucket:', bucket)
region = 'ap-northeast-1'
s3 = boto3.client('s3', region)
result = s3.create_bucket(
    Bucket=bucket,
    CreateBucketConfiguration={'LocationConstraint': region})

file = 'scribe_file_in.mp3'
key = 'input'
s3.upload_file(file, bucket, key)

transcribe = boto3.client('transcribe', region)
job = str(uuid.uuid1())
uri = 'https://s3-'+region+'.amazonaws.com/'+bucket+'/'+key
result = transcribe.start_transcription_job(
    TranscriptionJobName=job, Media={'MediaFileUri': uri},
    MediaFormat='mp3', LanguageCode='ja-JP')
print('start_transcription_job:')
pprint.pprint(result)

start = time.time()
while True:
    result = transcribe.get_transcription_job(TranscriptionJobName=job)
    status = result['TranscriptionJob']['TranscriptionJobStatus']
    if status != 'IN_PROGRESS':
        break
    time.sleep(10)
    print('time:', time.time()-start)
print('get_transcription_job:')
pprint.pprint(result)

uri = result['TranscriptionJob']['Transcript']['TranscriptFileUri']
print('uri:', uri)
with urllib.request.urlopen(uri) as file_in:
    transcripts = json.load(file_in)
with open('scribe_file_out.json', 'w', encoding='utf-8') as file_out:
    json.dump(transcripts, file_out, indent=4)

print('transcript:')
for transcript in transcripts['results']['transcripts']:
    print(transcript['transcript'])

transcribe.delete_transcription_job(TranscriptionJobName=job)
s3.delete_object(Bucket=bucket, Key=key)
s3.delete_bucket(Bucket=bucket)

すると以下のエラーが出ます。

---------------------------------------------------------------------------
KeyError                                  Traceback (most recent call last)
<ipython-input-19-68aeffcf87d9> in <module>
     38 pprint.pprint(result)
     39 
---> 40 uri = result['TranscriptionJob']['Transcript']['TranscriptFileUri']
     41 print('uri:', uri)
     42 with urllib.request.urlopen(uri) as file_in:

KeyError: 'TranscriptFileUri'

また、本書では英語を文字に起こすコードがあり、以下は動きます。

import boto3
import json
import pprint
import time
import uuid
import urllib

bucket = str(uuid.uuid1())
print('bucket:', bucket)
region = 'us-east-2'
s3 = boto3.client('s3', region)
result = s3.create_bucket(
    Bucket=bucket,
    CreateBucketConfiguration={'LocationConstraint': region})

file = 'scribe_file_in.mp3'
key = 'input'
s3.upload_file(file, bucket, key)

transcribe = boto3.client('transcribe', region)
job = str(uuid.uuid1())
uri = 'https://s3-'+region+'.amazonaws.com/'+bucket+'/'+key
result = transcribe.start_transcription_job(
    TranscriptionJobName=job, Media={'MediaFileUri': uri},
    MediaFormat='mp3', LanguageCode='en-US')
print('start_transcription_job:')
pprint.pprint(result)

start = time.time()
while True:
    result = transcribe.get_transcription_job(TranscriptionJobName=job)
    status = result['TranscriptionJob']['TranscriptionJobStatus']
    if status != 'IN_PROGRESS':
        break
    time.sleep(10)
    print('time:', time.time()-start)
print('get_transcription_job:')
pprint.pprint(result)

uri = result['TranscriptionJob']['Transcript']['TranscriptFileUri']
print('uri:', uri)
with urllib.request.urlopen(uri) as file_in:
    transcripts = json.load(file_in)
with open('scribe_file_out.json', 'w', encoding='utf-8') as file_out:
    json.dump(transcripts, file_out, indent=4)

print('transcript:')
for transcript in transcripts['results']['transcripts']:
    print(transcript['transcript'])

transcribe.delete_transcription_job(TranscriptionJobName=job)
s3.delete_object(Bucket=bucket, Key=key)
s3.delete_bucket(Bucket=bucket)

日本語対応にあたって変更した点は以下の二つです。