pandasで重複する行を結合、その後重複したvalueをカラムごとに分割

Question

プログラミング初心者で、皆様のご教示が頂きたく投稿いたしました。
何卒宜しくお願い致します。

重複する行を結合、その後重複したvalueをカラムごとに分割するコードを書いています。


```ここに言語を入力
import pandas as pd

# before
df_before = pd.DataFrame({'code' : [1,1,1,2,2,3,4,5],
                          'material' : ['a','b','c','e','f','a','b','c']})
print(df_before)

   # code material
# 0     1        a
# 1     1        b
# 2     1        c
# 3     2        e
# 4     2        f
# 5     3        a
# 6     4        b
# 7     5        c

# after
df_after =  pd.DataFrame({'code' : [1,2,3,4,5],
                          'material' : ['a','e','a','b','c'],
                          'material_1' : ['b','f','x','x','x'],
                          'material_2' : ['c','x','x','x','x']})
print(df_after)
   # code material material_1 material_2
# 0     1        a          b          c
# 1     2        e          f          x
# 2     3        a          x          x
# 3     4        b          x          x
# 4     5        c          x          x

#'x'は仮の値。本来は空欄

#2ステップでafterになることを想定
# 1.group_byで結合
# 2.value内の重複したデータを分割

# 1.group_byで結合
df_before_01 = df_before.groupby('code').apply(lambda x: x.sum()).drop('code', axis=1).reset_index()
print(df_before_01)

   # code material
# 0     1      abc
# 1     2       ef
# 2     3        a
# 3     4        b
# 4     5        c

# 2．value内の重複したデータを分割（以下の手順で進めることを想定）
　#　結合した'material'のvalueで含まれている文字列が一番多いものをカウントする
　　（例：上記の事例の場合、'material'のvalueで文字列が最も多いvalueは、'abc'の計3個）
　#　columnには1個の文字列としたいため、columnを増やす
　　（例：上記の場合、'b','c'のそれぞれに'material_1','material_2'を追加）
 　
# 下記が希望する最終結果（※x:は仮の値。本来は空欄）
   # code material material_1 material_2
# 0     1        a          b          c
# 1     2        e          f          x
# 2     3        a          x          x
# 3     4        b          x          x
# 4     5        c          x          x

# 文字列をカウントするのはcounterを使用する気はするが、文字列の各要素の個数はカウントできるものの、
　value内の最大個数をカウントできない？
# １つのValueに複数ある文字列を、新しく設けたcolumnに移動させる方法が思いつかず。。。


そもそも想定が間違っているかもしれませんが、ご教示のほど何卒宜しくお願い致します。

```

Accepted Answer

以下のように新たなデータフレームを作りこめばよいと思います。
```Python
import pandas as pd

# before
df_before = pd.DataFrame({'code' : [1,1,1,2,2,3,4,5],
                          'material' : ['a','b','c','e','f','a','b','c']})

df_before_01 = df_before.groupby('code').apply(lambda x: x.sum()).drop('code', axis=1).reset_index()
print(df_before_01)
#   code material
#0     1      abc
#1     2       ef
#2     3        a
#3     4        b
#4     5        c

a = df_before_01['material'].apply(lambda x:list(x)).tolist()
n_col = max([len(l) for l in a])
df = pd.DataFrame( a, columns=[f'mat{i+1}' for i in range(n_col)])

df.insert(0,'code', df_before_01['code'])
df = df.fillna('x')
print(df)
#   code mat1 mat2 mat3
#0     1    a    b    c
#1     2    e    f    x
#2     3    a    x    x
#3     4    b    x    x
#4     5    c    x    x
```