質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.53%

JSON形式の文字列を分解してリストに格納したい

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,064

Otazoman

score 40

 実現したいこと

AWSのLambdaにてS3からJSONファイルを取得してDynamoDBに投入する
プログラムを作成しようとしております。その際にS3から取得したJSONを
DynamoDBにputできる形式に変換するところでつまずいております。

理想としては以下の様にリストの中に辞書が入れ子になっている形式が理想なのです。

[{"key1":"val1","key2":"val2"},{"key1":"val3","key2":"val4"},{"key1":"val5","key2":"val6"}]

現在はリストの中に文字列として入ってしまっている状態です。(以下の様な状態です)

["{"key1":"val1","key2":"val2"},{"key1":"val3","key2":"val4"},{"key1":"val5","key2":"val6"}"]


何とか理想通りの出力とするためにはどの様に処理すればいいでしょうか。

 該当のソースコード

import logging
import boto3
import json
import datetime

LOGGER = logging.getLogger()
LOGGER.setLevel(logging.INFO)
dynamodb = boto3.resource('dynamodb')
s3 = boto3.client('s3')

# DynamoDBに書込み(ここは動きます)
def put_item(writeitems,writetable):
    try:
        table = dynamodb.Table(writetable)
        with table.batch_writer() as batch:
            for i in range(len(writeitems)):
                batch.put_item(
                    Item=writeitems[i]
                )
        LOGGER.info("Completed registration")
        return "end"
    except Exception as e:
        LOGGER.error(e)
        raise e
# S3で読込んだJSONを辞書型配列に変換
def translateJson(res):
    try:
        td = json.dumps(res.decode('utf-8-sig'))
        tr = str.maketrans({'[': '', ']': ''})
        s = td.translate(tr)
        d = json.loads(s)
        values = []
        values.append(d)

# ここのコメント相当の箇所をS3から読み込んで処理させたいというものです。
# この書式であれば辞書型なのでうまく処理はできました。
#        for i in range(50):
#            values.append({
#                               'i-code': '111-0002',
#                               's-key': 'blog' + str(i),
#                               'VAL1': i,
#                           })

        return values
    except Exception as e:
        LOGGER.error(e)
        raise e
####
def lambda_handler(event, context):
    try:
        table_name = "item-content"
        bucket_name = 'dynamodb-importdata'
        file_name = 'item-content.json'
        cd = datetime.datetime.now()
        response = s3.get_object(Bucket=bucket_name, Key=file_name)
        tabledata = response['Body'].read()
        objItems = translateJson(tabledata)
        stat = put_item(objItems,table_name)
        LOGGER.info("Completed registration")
        return objItems
    except Exception as e:
        LOGGER.error(e)
        raise e

 その他補足

res.decode('utf-8-sig')の時点での文字列です。

"\"[{\\\"item-code\\\":\\\"1-0001\\\",\\\"search-key\\\":\\\"1010\\\",\\\"VAL1\\\":\\\"2000\\\",\\\"VAL2\\\":\\\"\\u30c6\\u30b9\\u30c8\\u9805\\u76ee1\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e1\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee1\\\",\\\"VAL5\\\":\\\"\\u67a01\\\"},{\\\"item-code\\\":\\\"1-0002\\\",\\\"search-key\\\":\\\"1010\\\",\\\"VAL1\\\":\\\"2500\\\",\\\"VAL2\\\":\\\"\\u30c6\\u30b9\\u30c8\\u9805\\u76ee2\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e2\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee2\\\",\\\"VAL5\\\":\\\"\\u67a02\\\"},{\\\"item-code\\\":\\\"1-0003\\\",\\\"search-key\\\":\\\"1010\\\",\\\"VAL1\\\":\\\"3000\\\",\\\"VAL5\\\":\\\"\\u67a03\\\"},{\\\"item-code\\\":\\\"7-0011\\\",\\\"search-key\\\":\\\"1111\\\",\\\"VAL1\\\":\\\"49680\\\",\\\"VAL2\\\":\\\"\\u30c6\\u30b9\\u30c8\\u9805\\u76ee64\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e64\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee64\\\",\\\"VAL5\\\":\\\"\\u67a064\\\"},{\\\"item-code\\\":\\\"7-0012\\\",\\\"search-key\\\":\\\"1111\\\",\\\"VAL1\\\":\\\"53320\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e65\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee65\\\",\\\"VAL5\\\":\\\"\\u67a065\\\"},{\\\"item-code\\\":\\\"7-0013\\\",\\\"search-key\\\":\\\"1111\\\",\\\"VAL1\\\":\\\"56960\\\",\\\"VAL5\\\":\\\"\\u67a066\\\"},{\\\"item-code\\\":\\\"7-0014\\\",\\\"search-key\\\":\\\"1010\\\",\\\"VAL1\\\":\\\"60600\\\",\\\"VAL5\\\":\\\"\\u67a067\\\"},{\\\"item-code\\\":\\\"8-0001\\\",\\\"search-key\\\":\\\"1110\\\",\\\"VAL1\\\":\\\"64240\\\",\\\"VAL5\\\":\\\"\\u67a068\\\"},{\\\"item-code\\\":\\\"8-0002\\\",\\\"search-key\\\":\\\"1110\\\",\\\"VAL1\\\":\\\"67880\\\",\\\"VAL5\\\":\\\"\\u67a069\\\"},{\\\"item-code\\\":\\\"8-0003\\\",\\\"search-key\\\":\\\"1011\\\",\\\"VAL1\\\":\\\"71520\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e70\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee70\\\",\\\"VAL5\\\":\\\"\\u67a070\\\"}]\""
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • hayataka2049

    2018/11/21 23:31 編集

    res.decode('utf-8-sig')の時点ではどんな文字列になっていますか? translateJsonの返り値を質問文に記載されている希望のフォーマットに変換したいという理解で良いでしょうか

    キャンセル

回答 1

checkベストアンサー

+1

二回loadsすると良い具合になるようです。

>>> s = "\"[{\\\"item-code\\\":\\\"1-0001\\\",\\\"search-key\\\":\\\"1010\\\",\\\"VAL1\\\":\\\"2000\\\",\\\"VAL2\\\":\\\"\\u30c6\\u30b9\\u30c8\\u9805\\u76ee1\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e1\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee1\\\",\\\"VAL5\\\":\\\"\\u67a01\\\"},{\\\"item-code\\\":\\\"1-0002\\\",\\\"search-key\\\":\\\"1010\\\",\\\"VAL1\\\":\\\"2500\\\",\\\"VAL2\\\":\\\"\\u30c6\\u30b9\\u30c8\\u9805\\u76ee2\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e2\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee2\\\",\\\"VAL5\\\":\\\"\\u67a02\\\"},{\\\"item-code\\\":\\\"1-0003\\\",\\\"search-key\\\":\\\"1010\\\",\\\"VAL1\\\":\\\"3000\\\",\\\"VAL5\\\":\\\"\\u67a03\\\"},{\\\"item-code\\\":\\\"7-0011\\\",\\\"search-key\\\":\\\"1111\\\",\\\"VAL1\\\":\\\"49680\\\",\\\"VAL2\\\":\\\"\\u30c6\\u30b9\\u30c8\\u9805\\u76ee64\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e64\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee64\\\",\\\"VAL5\\\":\\\"\\u67a064\\\"},{\\\"item-code\\\":\\\"7-0012\\\",\\\"search-key\\\":\\\"1111\\\",\\\"VAL1\\\":\\\"53320\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e65\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee65\\\",\\\"VAL5\\\":\\\"\\u67a065\\\"},{\\\"item-code\\\":\\\"7-0013\\\",\\\"search-key\\\":\\\"1111\\\",\\\"VAL1\\\":\\\"56960\\\",\\\"VAL5\\\":\\\"\\u67a066\\\"},{\\\"item-code\\\":\\\"7-0014\\\",\\\"search-key\\\":\\\"1010\\\",\\\"VAL1\\\":\\\"60600\\\",\\\"VAL5\\\":\\\"\\u67a067\\\"},{\\\"item-code\\\":\\\"8-0001\\\",\\\"search-key\\\":\\\"1110\\\",\\\"VAL1\\\":\\\"64240\\\",\\\"VAL5\\\":\\\"\\u67a068\\\"},{\\\"item-code\\\":\\\"8-0002\\\",\\\"search-key\\\":\\\"1110\\\",\\\"VAL1\\\":\\\"67880\\\",\\\"VAL5\\\":\\\"\\u67a069\\\"},{\\\"item-code\\\":\\\"8-0003\\\",\\\"search-key\\\":\\\"1011\\\",\\\"VAL1\\\":\\\"71520\\\",\\\"VAL3\\\":\\\"\\u8aac\\u660e70\\\",\\\"VAL4\\\":\\\"\\u9805\\u76ee70\\\",\\\"VAL5\\\":\\\"\\u67a070\\\"}]\""
>>> import json
>>> json.loads(json.loads(s))
[{'item-code': '1-0001', 'VAL2': 'テスト項目1', 'VAL4': '項目1', 'VAL3': '説明1', 'VAL5': '枠1', 'search-key': '1010', 'VAL1': '2000'}, {'item-code': '1-0002', 'VAL2': 'テスト項目2', 'VAL4': '項目2', 'VAL3': '説明2', 'VAL5': '枠2', 'search-key': '1010', 'VAL1': '2500'}, {'item-code': '1-0003', 'VAL5': '枠3', 'search-key': '1010', 'VAL1': '3000'}, {'item-code': '7-0011', 'VAL2': 'テスト項目64', 'VAL4': '項目64', 'VAL3': '説明64', 'VAL5': '枠64', 'search-key': '1111', 'VAL1': '49680'}, {'item-code': '7-0012', 'VAL3': '説明65', 'VAL4': '項目65', 'VAL5': '枠65', 'search-key': '1111', 'VAL1': '53320'}, {'item-code': '7-0013', 'VAL5': '枠66', 'search-key': '1111', 'VAL1': '56960'}, {'item-code': '7-0014', 'VAL5': '枠67', 'search-key': '1010', 'VAL1': '60600'}, {'item-code': '8-0001', 'VAL5': '枠68', 'search-key': '1110', 'VAL1': '64240'}, {'item-code': '8-0002', 'VAL5': '枠69', 'search-key': '1110', 'VAL1': '67880'}, {'item-code': '8-0003', 'VAL3': '説明70', 'VAL4': '項目70', 'VAL5': '枠70', 'search-key': '1011', 'VAL1': '71520'}]

確認したいのですが、

  • この「res.decode('utf-8-sig')の時点での文字列」は純粋に「res.decode('utf-8-sig')の時点での文字列」の返り値ですか? それともtdに代入されている値ですか?
  • このあたりの処理の意義がわかりません。
        td = json.dumps(res.decode('utf-8-sig'))
        tr = str.maketrans({'[': '', ']': ''})
        s = td.translate(tr)
        d = json.loads(s)


res.decode('utf-8-sig')を単にloadsするようにしなかった理由は何でしょうか。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/11/22 12:38

    >この「res.decode('utf-8-sig')の時点での文字列」は純粋に「res.decode('utf-8-sig')の時点での文字列」の返り値ですか? それともtdに代入されている値ですか?
    →tdに代入されている値です。

    処理の意図としては、ファイルからバイナリで流れてくるデータを
    UTF-8でデコードしてJSON化してその際にstrになるので前後の「[]」を
    取り除いて文字列として返して、その文字列を辞書型に変換してからリストに
    挿入するという処理を行おうとしておりました。

    json.loadsについてはこれから試してみます。
    早速のご回答ありがとうございます。

    キャンセル

  • 2018/11/22 13:01

    ありがとうございます。以下のコードで意図通りの動作ができました。
    大変、助かりました。しかしながら、「json.loads(json.loads(s))」2回でうまく
    JSON形式に変換されたのかが分かりません。可能であればお教えいただけるとありがたいです。

    修正したコード
    ```python
    import logging
    import boto3
    import json
    import datetime

    LOGGER = logging.getLogger()
    LOGGER.setLevel(logging.INFO)
    dynamodb = boto3.resource('dynamodb')
    s3 = boto3.client('s3')

    # DynamoDBに書込み
    def put_item(writeitems,writetable):
    try:
    table = dynamodb.Table(writetable)
    with table.batch_writer() as batch:
    for i in range(len(writeitems)):
    batch.put_item(
    Item=writeitems[i]
    )
    LOGGER.info("Completed registration")
    return "end"
    except Exception as e:
    LOGGER.error(e)
    raise e

    # S3で読込んだJSONを辞書型配列に変換
    def translateJson(res):
    try:
    td = json.dumps(res.decode('utf-8-sig'))
    s=json.loads(json.loads(td))
    return s

    except Exception as e:
    LOGGER.error(e)
    raise e

    # main
    def lambda_handler(event, context):
    try:
    table_name = "item-content"
    bucket_name = 'dynamodb-importdata'
    file_name = 'item-content.json'
    cd = datetime.datetime.now()
    response = s3.get_object(Bucket=bucket_name, Key=file_name)
    tabledata = response['Body'].read()

    objItem = translateJson(tabledata)
    stat = put_item(objItem,table_name)

    LOGGER.info("Completed registration")
    return "end"

    except Exception as e:
    LOGGER.error(e)
    raise e
    ```

    キャンセル

  • 2018/11/22 13:03

    二回必要になるのはわざわざ json.dumpsをしているからです。
    s=json.loads(res.decode('utf-8-sig'))
    で必要な結果が得られるように思いますが、これだとうまくいかないのでしょうか?

    キャンセル

  • 2018/11/22 16:39

    すいません。これでうまく動きました。
    s=json.loads(res.decode('utf-8-sig'))

    デバッグ時に別の箇所で起こっていたエラーと勘違いしていたみたいです。
    本当にありがとうございました。今後ともpython頑張りたいです。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.53%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる