🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

JSON

JSON(JavaScript Object Notation)は軽量なデータ記述言語の1つである。構文はJavaScriptをベースとしていますが、JavaScriptに限定されたものではなく、様々なソフトウェアやプログラミング言語間におけるデータの受け渡しが行えるように設計されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

2913閲覧

ネストした json の CSV への変換 (pandas使用して)

moika

総合スコア1

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

JSON

JSON(JavaScript Object Notation)は軽量なデータ記述言語の1つである。構文はJavaScriptをベースとしていますが、JavaScriptに限定されたものではなく、様々なソフトウェアやプログラミング言語間におけるデータの受け渡しが行えるように設計されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/02/16 06:31

編集2021/02/16 06:34

ネストした json の CSV への変換

json ファイルを取り込んで、CSV形式で出力したいと思っています。
そのために pandas を利用したいのですが、json_normalize のところで苦戦しています。

対象の json ファイル (metro.json)

{ "date": "2021/2/12 11:00", "datasets": [ { "period": { "begin": "2020-02-10", "end": "2020-02-14" }, "data": [ -0.96, -2.94, -7.48 ] }, { "period": { "begin": "2021-02-08", "end": "2021-02-10" }, "data": [ -19.77, -40.43, -39 ] } ], "labels": [ "6:30~7:30", "7:30~9:30", "9:30~10:30" ], "base_period": "2020/1/20~2020/1/24" }

試したCSV作成プログラム

python

1import pandas as pd 2import json 3import sys 4 5# 引数処理 6args = sys.argv 7file_in = args[1] # metro.json 8file_out = args[2] # metro.csv 9 10#変換したいJSONファイルを読み込む 11with open(file_in) as f: 12 d = json.load(f) 13 14d_target = d['datasets'] 15s_target = json.dumps(d_target) 16df_target = pd.read_json(s_target) 17df_period = pd.json_normalize(df_target['period']) 18 19print(df_period) 20df_period.to_csv(file_out, encoding='shift-jis') 21

現状と行いたいこと

上記プログラムを実行すると

,begin,end 0,2020-02-10,2020-02-14 1,2021-02-08,2021-02-10

となります。
ですが、data の部分も展開して、下記のように変換したいと思っています。

,begin,end,data,, 0,2020-02-10,2020-02-14,-0.96,-2.94,-7.48 1,2021-02-08,2021-02-10,-19.77,-40.43,-39

dataのところをどのようにして取得すればよいかお知恵をいただけないでしょうか?

さらに、下記のような形式にできると良いのですが、
pandas でここまでするのは難しいでしょうか?

,day,data,, 0,2020-02-10,-0.96,-2.94,-7.48 1,2020-02-11,-0.96,-2.94,-7.48 2,2020-02-12,-0.96,-2.94,-7.48 3,2020-02-13,-0.96,-2.94,-7.48 4,2020-02-14,-0.96,-2.94,-7.48 5,2021-02-08,-19.77,-40.43,-39 6,2021-02-09,-19.77,-40.43,-39 7,2021-02-10,-19.77,-40.43,-39

実行環境

Windows10 Pro
Powershell
python 3.9.1
pandas 1.2.2

以上です。
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

pandas でここまでするのは難しいでしょうか?

できるかもしれませんが、私にとってはこういう場合のpandasの使い道がわかりません。

以下に示すコードは、pandasを使わずにデータを作って、最後にDataFrameにしているだけです。

python

1import pandas as pd 2import json 3 4with open('metro.json') as f: 5 d = json.load(f) 6 7import datetime 8oneday = datetime.timedelta(days=1) 9 10def get_data(d, keys): 11 if keys == []: 12 return d 13 else: 14 return get_data(d[keys[0]], keys[1:]) 15 16metro_data = [] 17i = 0 18for x in d['datasets']: 19 begin = datetime.datetime.strptime(get_data(x, ['period', 'begin']), '%Y-%m-%d') 20 end = datetime.datetime.strptime(get_data(x, ['period', 'end']), '%Y-%m-%d') 21 data = get_data(x, ['data']) 22 for count in range((end - begin).days + 1): 23 metro_data.append([i, (begin+oneday*count).strftime('%Y-%m-%d'), *data]) 24 i += 1 25 26metro_df = pd.DataFrame(metro_data, columns=['i', 'day', 'data1', 'data2', 'data3']) 27 28print(metro_df)

実行結果は以下です。

shell

1> python metro.py 2 i day data1 data2 data3 30 0 2020-02-10 -0.96 -2.94 -7.48 41 1 2020-02-11 -0.96 -2.94 -7.48 52 2 2020-02-12 -0.96 -2.94 -7.48 63 3 2020-02-13 -0.96 -2.94 -7.48 74 4 2020-02-14 -0.96 -2.94 -7.48 85 5 2021-02-08 -19.77 -40.43 -39.00 96 6 2021-02-09 -19.77 -40.43 -39.00 107 7 2021-02-10 -19.77 -40.43 -39.00

投稿2021/02/16 09:33

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

moika

2021/02/16 09:50

ppaulさん 早速の回答ありがとうございます。 やりたいことが実現できました。 pandas はもとより、 Python もよくわかっていないため pandas で処理することにこだわってしまいました。 頂いたコードで勉強したいと思います。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問