python3.5 環境で utf-8 to cp932 への文字コード変換ができない

前提・実現したいこと

s3 にあるファイルを文字コード変換して別オブジェクトとして保存したい。

発生している問題・エラーメッセージ

エラーにはならないものの、文字コードが utf-8 のままで変換が行われない。

該当のソースコード

python
1# -*- coding: utf-8 -*-
2
3import os
4import sys
5import codecs
6import boto3
7from io import StringIO
8
9def main():
10    bucketname = 's3_bucket'
11
12    filepath = 'MONTHLY_DATA/2020/202002'
13    srcname = 'utf8_202002.csv'
14    dstname = 'cp932_202002.csv'
15
16    s3 = boto3.client('s3')
17    obj = s3.get_object(Bucket=bucketname, Key=os.path.join(filepath, srcname))
18    body = obj['Body']
19
20    encoded = codecs.encode(body.read().decode('utf-8'), 'cp932')
21    decoded = codecs.decode(encoded, 'cp932')
22
23    out_buffer = StringIO(decoded)
24    s3_resource = boto3.resource('s3')
25    s3_resource.Bucket(bucketname).put_object(
26        Key=os.path.join(filepath, dstname),
27        Body=out_buffer.getvalue(),
28        ContentEncoding='text/csv; charset=cp932'
29    )
30

試したこと

python
1    src_codec = codecs.lookup("utf-8")
2    dst_codec = codecs.lookup("cp932")
3    stream = codecs.StreamRecoder(
4        StringIO(body.read().decode('utf-8')),
5        dst_codec.encode, src_codec.decode,
6        src_codec.streamreader, dst_codec.streamwriter
7    )
8    reader = codecs.StreamReader(stream)
9
10    out_buffer = StringIO()
11    for line in reader.readline():
12        out_buffer.write(line)

のようにもしてみましたが、readline のエラーが解消されず断念。

補足情報（FW/ツールのバージョンなど）

python のバージョンは 3.5 です。

行動規範の内容に同意します

回答1件

ベストアンサー

python
1        Body=out_buffer.getvalue(),

は

python
1        Body=encoded,

でいいんじゃないでしょうか?

python
1    encoded = codecs.encode(body.read().decode('utf-8'), 'cp932')

でShiftJISのバイトデータを作ったあとに

python
1    decoded = codecs.decode(encoded, 'cp932')

バイトデータを"ShiftJISだと思って文字列にしなさい"とやって元に戻してますよね。

投稿2020/03/05 07:18

quickquip

総合スコア11235

M.O.

2020/03/05 07:57 編集

ありがとうございます。おっしゃるとおり、せっかく encode したものを戻してしまっていました。解決しました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

python3.5 環境で utf-8 to cp932 への文字コード変換ができない

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問