pandasを使用してExcelファイルに出力

pandasを使用してExcelファイルにデータを書き込みを考えています。

Excelファイルの書き込む際、シート別に書き込む想定です。

汚いコードですが現状こうなっております。

COLUMNS = ['a', 'b', 'c', 'd']
df = pd.DataFrame(columns=COLUMNS)

for v1 in data:
   for v2 in v1['values']:
       tmp_se = pd.Series([v2['fields']['key'],
                           v2['name'],
                           v2['fields']['fields1'],
                           v2['fields']['fields2'],
                           index=df.columns)
         df = df.append(tmp_se, ignore_index=True)
   with pd.ExcelWriter('test.xlsx') as writer:
      df.to_excel(writer, index=False, sheet_name='sheet'+str(v1['name']), encoding='utf-8')

これだと、一番最後のforで回したデータのみExcelに書き込まれます。
forで強引に回していて、1回分回したものを1シートを書き込みたいです。

書き込むデータ(変数data)はさほど多くはないことを想定していますが、
多くなった場合のことを考えると、for入れ子にして記載すると遅くなってしまうので、できれば違う書き方にしたいと考えています。

質問内容不足していましたら申し訳ないのですが、ご教授のほどよろしくお願い致します。

waku_nagoya

2019/06/04 01:10

dataはどのような構造になっていますか？ちょっとこのコードだけだと何をしたいのか、いまいち分かりにくいです。

xxyyxx

2019/06/04 01:13

データはjson形式になって変数dataに入っています！

waku_nagoya

2019/06/04 01:19

サンプルデータを載せれますか？

xxyyxx

2019/06/04 02:51

``` { 'expand': 'schemanames', 'startAt': 0, 'maxResults': 100, 'total': 150, 'issues': [{ 'expand': 'operations,versionedRepresentations,editmeta,changelog,renderedFields', 'id': '111111', 'self': 'https://sample.jp//api/2/project/111111', 'key': '911', 'fields': { 'parent': { 'id': '54321', 'key': '11', 'self': 'https://sample.jp//api/2/project/11112' } } }], 'issues': [{ 'expand': 'operations,versionedRepresentations,editmeta,changelog,renderedFields', 'id': '222222', 'self': 'https://sample.jp//api/2/project/222222', 'key': '912', 'fields': { 'parent': { 'id': '54320', 'key': '11', 'self': 'https://sample.jp//api/2/project/11142' } } }] } ``` こんなかんじです！実際はissuesのネストがもう少しあるかんじです。

行動規範の内容に同意します

回答1件

ベストアンサー

その json データでは、 issues キーが重複するため、どんどん上書きされていって最後の issues のみ残ってしまいます。
そこを改良してください。

ここから追記です。

filename : tera.json

json
1{
2    "expand": "schemanames",
3    "startAt": 0,
4    "maxResults": 100,
5    "total": 150,
6    "issues": [
7	{
8	    "expand": "operations,versionedRepresentations,editmeta,changelog,renderedFields",
9	    "id": "111111",
10	    "self": "https://sample.jp//api/2/project/111111&#039",
11            "key": "911",
12            "fields": {
13		"parent": {
14                    "id": "54321",
15                    "key": "11",
16                    "self": "https://sample.jp//api/2/project/11112&#039"
17		}
18            }
19	},
20	{
21	    "expand": "operations,versionedRepresentations,editmeta,changelog,renderedFields",
22	    "id": "111112",
23	    "self": "https://sample.jp//api/2/project/111111&#039",
24            "key": "912",
25            "fields": {
26		"parent": {
27                    "id": "54322",
28                    "key": "12",
29                    "self": "https://sample.jp//api/2/project/11112&#039"
30		}
31            }
32	}
33    ],
34    "issues2": [
35	{
36            "expand": "operations,versionedRepresentations,editmeta,changelog,renderedFields",
37            "id": "222222",
38            "self": "https://sample.jp//api/2/project/222222&#039",
39            "key": "912",
40            "fields": {
41		"parent": {
42                    "id": "64320",
43                    "key": "21",
44                    "self": "https://sample.jp//api/2/project/11142&#039"
45		}
46            }
47	},
48	{
49            "expand": "operations,versionedRepresentations,editmeta,changelog,renderedFields",
50            "id": "3333",
51            "self": "https://sample.jp//api/2/project/222222&#039",
52            "key": "913",
53            "fields": {
54		"parent": {
55                    "id": "54321",
56                    "key": "22",
57                    "self": "https://sample.jp//api/2/project/11142&#039"
58		}
59            }
60	}
61	
62    ]
63}
64

こんな構造のjsonだったとしたら

python
1import pandas as pd
2from pandas.io.json import json_normalize
3import openpyxl
4
5f= open("tera.json", "r")
6data = json.load(f)
7
8with  pd.ExcelWriter("test.xlsx") as writer:
9    for v in data:
10        if "issues" in v:
11            r = json_normalize(data[v])
12            r.to_excel(writer, sheet_name=v)

これで大体やりたいことはできるかと思います。

jsonを修正したところとしては、issues のキー名を重複しないように変更したことです。
もっと構造を変えてもよければ、issues自体をリスト化することです。
そうするともう少しスマートになるかと。

投稿2019/06/04 04:20

編集2019/06/04 06:56

waku_nagoya

総合スコア200

xxyyxx

2019/06/04 04:57

ご回答ありがとうございます！外部API叩いて返ってくるデータなので1度整形するかんじでしょうか？ありがとうございました。

waku_nagoya

2019/06/04 06:25

jsonの構成によってロジックはだいぶ変わってくると思いますので、次の質問に答えてください。 1. issuesの中に expand　は複数入る可能性はありますか？ 2. epand が複数入る場合、各 issues ごとに expand の件数は異なりますか？ 3. self の URL は ' の閉じ忘れなのか、化けているだけなのかどちらでしょうか。少なくとも、python に JSONを取り込む場合は、シングルクォーテーションではなく、正しくダブルクォーテーションに直した方が取り扱いやすいです。

waku_nagoya

2019/06/04 06:52

先にサンプルを載せておきますね。

xxyyxx

2019/06/07 02:48

ありがとうございます！！是非参考にさせて頂きますm(_ _)m

xxyyxx

2019/06/07 02:48

コメントが遅れてしまい申し訳ございませんでした、、

行動規範の内容に同意します