文字列と数値の混在するデータフレームで、重複行を統合したい。

文字列と数値の混在するデータフレームで、部分重複行を任意の形で統合したい。
(Windows10, Python3.8.6)

ある実験について、下記のようなデータフレーム(d0)があり、"ExNo"が同一のもの同士を統合したいです。
"ExNo"が「実験番号」、"M1" ~ "M3_wt%"が「実験条件」、"Result"が「実験結果」です。
|ExNo|M1|M1_wt%|M2|M2_wt%|M3|M3_wt%|Result|
|--|--|--|--|--|--|
Ex1|A|50|X|25|P|25|0.95|
Ex1|A|50|X|25|P|25|1|
Ex2|A|75|Y|12.5|P|12.5|0.6|
Ex2|A|75|Y|12.5|P|12.5|0.7|
Ex3|B|50|Z|25|Q|25|1.5|
Ex3|B|50|Z|25|Q|25|1.5|
Ex3|B|50|Z|25|Q|25|1.6|

この時、実験番号（実験条件でもよい）が同一の行を統合し、実験結果は統合されたデータの平均値として、下のようなアウトプット(newdata)を得たいです。
ExNo|M1|M1_wt%|M2|M2_wt%|M3|M3_wt%|Result|
|--|--|--|--|--|--|
Ex1|A|50|X|25|P|25|0.98|
Ex2|A|75|Y|12.5|P|12.5|0.65|
Ex3|B|50|Z|25|Q|25|1.53|

以下のコードで無理やり実装することはできたのですが、列名と処理内容を逐一記述しなくてもいい方法があれば知りたいです。

Python
1def f(x):
2    d = {'M1': list({v for v in x['M1']})[0], 
3         'M1_wt%' : x['M1_wt%'].mean(),
4         'M2': list({v for v in x['M2']})[0], 
5         'M2_wt%' : x['M2_wt%'].mean(),
6         'M3': list({v for v in x['M3']})[0], 
7         'M3_wt%' : x['M3_wt%'].mean(),
8         'Result' : x['Result'].mean()
9        }
10    return pd.Series(d)
11
12newdata = d0.groupby('ExNo').apply(f)

よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

pivot_table() を使う例です。
indexに指定しなかった列（数字）の平均が計算されます。

python
1import pandas as pd
2d0 = pd.read_csv('test.csv')
3newdata = pd.pivot_table(d0, index=['ExNo','M1','M2','M3']).reset_index()
4# 列の順番を元に戻す
5col = d0.columns.values
6newdata = newdata.loc[:, col]
7print(newdata)

投稿2021/01/13 15:04

編集2021/01/13 15:14

退会済みユーザー

総合スコア0

comyan

2021/01/16 16:50

お返事遅くなり申し訳ございません。ご回答ありがとうございます。ご教示いただいたpivot_table()を使う方法でできました！実際は、「数値は平均値、文字はそのまま」という感じで列ごとの判定を行いたかったので、 ```Python import pandas as pd d0 = pd.read_csv('test.csv') d1 = d0.copy() col = d1.columns.tolist() strchk = lambda x: type(x) is str for par in corname: d0[par] = d0[par].map(strchk) s1 = d0.sum() ind = s1[s1 > 1].index.tolist() newdata = pd.pivot_table(d1, index=ind).reset_index() # 列の順番を元に戻す newdata = newdata.loc[:, col] print(newdata) ``` のようにしました。大変助かりました、ありがとうございました。

行動規範の内容に同意します