python dataframe 加工

Question

初めての質問です。
昨日から試行錯誤していますが解決策が分からず、投稿させていただきます。
質問内容はDataframeの加工です。
表1を表2のように加工したいと考えています。

表1…同一のindexのデータが複数行存在している(date違い)
|index|AA|BB|date|
|:--:|:--:|:--:|:--:|
|1234|1|2|2021/08/01|
|1234|4|5|2021/08/02|
|1234|7|8|2021/08/03|
|3456|11|22|2021/09/01|
|3456|44|55|2021/09/02|
|3456|77|88|2021/09/03|

表2…同一のindexのデータが1行のまとめられている
|index|AA1|BB1|date1|AA2|BB2|date2|AA3|BB3|date3|
|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|:--:|
|1234|1|2|2021/08/01|4|5|2021/08/02|7|8|2021/08/03|
|3456|11|22|2021/09/01|44|55|2021/09/02|77|88|2021/09/03|

上記のような加工方法が分かりません。
どなたかご教授していただけませんでしょうか…
宜しくお願い致します。

Accepted Answer

同じインデックスの中で連番をつけてやって、それをピボットしてやればできそうです。
下記でどうでしょうか。

```python
df_new = (df.set_index(df.groupby(level=0).cumcount(), append=True)
            .unstack()
            .sort_index(axis=1, level=1, sort_remaining=False))
df_new.columns = [c + str(n + 1) for c, n in df_new.columns]
```

1. groupby().cumcount() でインデックスが同じものなかで連番をつける (マルチインデックス)
2. unstack()でつけた連番をカラムに持っていく
3. カラムの並べ替え
4. カラムの名前変更

Answer

簡単にやる方法はなさそうです。
地道にやると以下のようになります。

```python
>>> print(df)
   index  AA  BB        date
0   1234   1   2  2021/08/01
1   1234   4   5  2021/08/02
2   1234   7   8  2021/08/03
3   3456  11  22  2021/09/01
4   3456  44  55  2021/09/02
5   3456  77  88  2021/09/03
6   3456  99   0  2021/09/04
>>> def getsub(df_a, df_u, i):
...     return pd.merge(df_unique, df[df['count']==i], how='left').drop(['index', 'count'], axis=1).rename(columns={'AA': f'AA{i}', 'BB': f'BB{i}', 'date': f'date{i}'})
...
>>> df_unique = pd.DataFrame({'index': df.groupby('index').count().index})
>>> df['count'] = 1
>>> df['count'] =df.groupby('index')['count'].cumsum()
>>> maxcount = df['count'].max()
>>>
>>> df_result = pd.concat([df_unique]+[getsub(df, df_unique, i) for i in range(1, maxcount+1)], axis=1)
>>> print(df_result)
   index  AA1  BB1       date1  AA2  BB2       date2  AA3  BB3       date3   AA4  BB4       date4
0   1234    1    2  2021/08/01    4    5  2021/08/02    7    8  2021/08/03   NaN  NaN         NaN
1   3456   11   22  2021/09/01   44   55  2021/09/02   77   88  2021/09/03  99.0  0.0  2021/09/04
```

index	AA	BB	date
1234	1	2	2021/08/01
1234	4	5	2021/08/02
1234	7	8	2021/08/03
3456	11	22	2021/09/01
3456	44	55	2021/09/02
3456	77	88	2021/09/03

関連した質問