繰り返し処理を用いたデータ集計：値がある限り続けたい

環境：python3,Win10

初学者です。以下のような表について、カラム「データX」の項目ごとに集計を行い出力したいと考えています。つまり、カラム「データX」がn種類あれば、そのn種類ごとに作業を繰り返してほしいと考えています。集計の中身としてはpandasやNumpyを用いた作業です。

たとえば以下のようなデータがあるとすれば、
|データX|データ１|データ２|データ３|データ４|データ５|
|:--|:--:|--:|
|a|1|2|3|4|5|
|b|2|3|4|4|5|
|c|(以下値あり)|…|…|…|…|…|
|a|||||||
|c|||||||
|b|||||||
|b|||||||
|a|||||||
|c|||||||

以下のようなデータを出力したいと考えています。

データXが「a」のデータについての集計ファイル.csv
データXが「b」のデータについての集計ファイル.csv
データXが「c」のデータについての集計ファイル.csv

しかし、これを実行するためにどんな文を書いたらよいかわかりません。以下のような感じになるのでしょうか。

Python3
1#元データの読み込みをする文
2for i in:#ここに何と書けばよいかわかりません。
3 #集計処理の文
4 #出力処理の文

PandasやNumpyに沿った方法であればなお助かります。
ご指導のほどよろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

python
1import pandas as pd
2x= pd.DataFrame({"データX":  ["a","b"],
3	         "データ１": [1,2],
4	         "データ２": [2,3],
5	         "データ３": [3,4],
6	         "データ４": [4,4],
7	         "データ５": [5,5]
8	           })
9
10for g in x.groupby("データX"):
11  print("index " + str(g[0]))
12  print(g[1])

インデックスとして使うべきデータXの値がg[0]に入っており、それに対応するxのサブセットがg[1]入っていることが、これで確認できます。
したがって、g[1]を対象とした集計・出力処理を続けて書けば目標が達成できると思います。

投稿2017/12/24 11:45

KojiDoi

総合スコア13671

ak_miyamoto

2017/12/25 07:33

ありがとうございます。追加の質問で恐縮なのですが、もしそのfor文の中で・”データX”の要素名(sampleでいうならa,b,c)を文字列として取得し、・出力するファイル名などとして使用(for文の中で自動的にネーミングされるようにする) していきたい場合には、どのような抽出作業が必要となるでしょうか？