元のdataframe

|col1|col2|col3|col4|col5|col6|
|:--|:--:|--:|
|A|1|0900|100|200|300|
|A|2|0920|100|200|300|
|A|3|0930|100|200|300|
|B|11|0900|200|300|400|
|B|12|0920|200|300|400|
|B|13|0930|200|300|400|
|C|21|0900|300|400|500|
|C|22|0920|300|400|500|
|C|23|0930|300|400|500|

作りたいdataframe

||0900|0920|0930|col4|col5|col6|
|:--|:--:|:--:|--:|
|A|1|2|3|100|200|300|
|B|11|12|13|200|300|400|
|C|21|22|23|300|400|500|

#　試したこと

python
1mt=df.pivot(index=['col0'],columns='col2',values=['col1'])
2mg=print(df[~df.duplicated(subset='col0')])
3pd.merge(mt,mg,on='col0',how='left')

pivotした後にmrageしてみたり色々やりましたが、思うようになりません。
お知恵貸していただけると嬉しいです。

行動規範の内容に同意します

回答2件

ベストアンサー

最後にmergeを使うのではなく、indexをそろえたあとjoinするとよいのではないでしょうか。
また、DataFrame.drop(columns=...)で不要なカラムを取り除くことができるのと、DataFrame.drop_duplicate()で重複のある行を取り除くことができます。

python
1import pandas as pd
2
3df = pd.DataFrame([
4    ['A', 1, '0900', 100, 200, 300],
5    ['A', 2, '0920', 100, 200, 300],
6    ['A', 3, '0930', 100, 200, 300],
7    ['B', 11, '0900', 200, 300, 400],
8    ['B', 12, '0920', 200, 300, 400],
9    ['B', 13, '0930', 200, 300, 400],
10    ['C', 21, '0900', 300, 400, 500],
11    ['C', 22, '0920', 300, 400, 500],
12    ['C', 23, '0930', 300, 400, 500]],
13    columns=['col1', 'col2', 'col3', 'col4', 'col5', 'col6'])
14
15df1 = df.pivot(index='col1',columns='col3',values='col2')
16df2 = df.drop(columns=['col2', 'col3']).drop_duplicates('col1').set_index('col1')
17
18new_df = df1.join(df2)

投稿2020/12/25 04:15

bsdfan

総合スコア4794

mn.py

2020/12/28 13:14

DataFrame.drop_duplicate()を使ってできました！ありがとうございました！

行動規範の内容に同意します

pivotでcol2とcol4以降をまとめて表にしてしまい、col4以降の不要な2列を削除してから、列名を付け直せばいいのでは。

Python
1import pandas as pd
2import io
3
4txt = """
5col1	col2	col3	col4	col5	col6
6A	1	0900	100	200	300
7A	2	0920	100	200	300
8A	3	0930	100	200	300
9B	11	0900	200	300	400
10B	12	0920	200	300	400
11B	13	0930	200	300	400
12C	21	0900	300	400	500
13C	22	0920	300	400	500
14C	23	0930	300	400	500
15"""
16
17df = pd.read_csv(io.StringIO(txt), delim_whitespace=True)
18print(df, end='\n\n')
19
20dfp = df.pivot(index=['col1'], columns=['col3'])
21print(dfp, end='\n\n')
22
23dfp.drop(dfp.columns[[i for i in range(4, len(dfp.columns)) if i % 3 != 0]], axis=1, inplace=True)
24dfp.columns = [t[1] if i < 3 else t[0] for i, t in enumerate(dfp.columns)]
25dfp.index.name = None
26print(dfp)

result
1  col1  col2  col3  col4  col5  col6
20    A     1   900   100   200   300
31    A     2   920   100   200   300
42    A     3   930   100   200   300
53    B    11   900   200   300   400
64    B    12   920   200   300   400
75    B    13   930   200   300   400
86    C    21   900   300   400   500
97    C    22   920   300   400   500
108    C    23   930   300   400   500
11
12     col2         col4           col5           col6
13col3  900 920 930  900  920  930  900  920  930  900  920  930
14col1
15A       1   2   3  100  100  100  200  200  200  300  300  300
16B      11  12  13  200  200  200  300  300  300  400  400  400
17C      21  22  23  300  300  300  400  400  400  500  500  500
18
19   900  920  930  col4  col5  col6
20A    1    2    3   100   200   300
21B   11   12   13   200   300   400
22C   21   22   23   300   400   500

投稿2020/12/24 13:28

編集2020/12/24 14:49

Daregada

総合スコア11990

mn.py

2020/12/24 13:33

ありがとうございます。参考にします！実は、元データはcol4にあたる列が複数行ありまして、、列数を指定して削除するのはやや冗長かなぁと思っております。また是非どうぞよろしくお願いいたします。

Daregada

2020/12/24 13:43

> col4にあたる列が複数行ありまして、、列数を指定して削除するのはやや冗長かなぁと質問に何も書いていない部分は当然考慮できませんがな。 dfp.columns[[4, 5]] の部分を、 dfp.columns[list(range(4,XXX))] # XXXは列数に変えるだけで、何列あろうが削除できますし。

mn.py

2020/12/24 13:58

そうですね。質問の容量得なくてすみませんでした。質問修正いたしました。ありがとうございます。

行動規範の内容に同意します

あなたの回答