pythonでexcelデータのソートの行い方

前提・実現したいこと

pythonでexcelデータのソートを行おうとしています。
（A列の社員番号で昇順ソート）
しかし、ヘッダーが複数、かつ結合されているため、うまくソートできません。

　　　　　A列　　B列　　　　C列　　　D列
1行目　社員番号　氏名　　2021年1月　2021年2月
2行目　　　　　　　　　　出勤日数　　出勤日数
3行目　　100　　鈴木一郎　　20　　　　19
4行目　　103　　鈴木二郎　　20　　　　18
5行目　　102　　鈴木三郎　　20　　　　19

発生している問題・エラーメッセージ

The column label '社員番号' is not unique.

該当のソースコード

df = pd.read_excel('test.xlsx' , sheet_name = 'Sheet1',header=[0,1] )
df_1 = df.sort_values(by='社員番号',ascending=True)

試したこと

・１、２行目で結合したままではソートできないようなので、結合を解除、
１行目に記載、２行目に記載、それぞれを試しましたが、エラー回避できず。
・１行目に記載し、２行目全てを削除（ヘッダーを１行目だけに）するとエラー解消。
・結合したまま、あるいは結合せずとも１、２行目をヘッダーとして残して社員番号で
どうにかソートをしたい。
・プログラムを複雑にしなくてもEXCELの記載方法を改めることで簡単なロジックに
できるなら記載方法を変えてもよい。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

行動規範の内容に同意します

回答3件

ベストアンサー

以下の様に行います。

python
1>>> print(df)
2   1行目           社員番号               氏名    44197    44228
3   2行目 Unnamed: 1_level_1 Unnamed: 2_level_1 出勤日数 出勤日数
40  3行目                100           鈴木一郎       20       19
51  4行目                103           鈴木二郎       20       18
62  5行目                102           鈴木三郎       20       19
7>>> df_1 = df.sort_values(by=df.columns[1], ascending=True)
8
9>>> print(df_1)
10   1行目           社員番号               氏名    44197    44228
11   2行目 Unnamed: 1_level_1 Unnamed: 2_level_1 出勤日数 出勤日数
120  3行目                100           鈴木一郎       20       19
132  5行目                102           鈴木三郎       20       19
141  4行目                103           鈴木二郎       20       18

投稿2021/10/30 15:37

ppaul

総合スコア24672

sake3230

2021/10/31 10:25

回答ありがとうございます。社員番号をどうにかしようと考えていましたが、df.columns[1]としてそのままソートしてしまえばよいのですね。

行動規範の内容に同意します

MultiIndex の一部(level=1)を書き換えても良いかと思います。

python
1>>> import pandas as pd
2>>> pd.set_option('display.unicode.east_asian_width', True)
3
4>>> df = pd.read_excel('test.xlsx', sheet_name='Sheet1', header=[0, 1])
5>>> df
6            社員番号               氏名 2021年1月 2021年2月
7  Unnamed: 0_level_1 Unnamed: 1_level_1  出勤日数  出勤日数
80                100           鈴木一郎        20        19
91                103           鈴木二郎        20        18
102                102           鈴木三郎        20        19
11
12>>> df.columns = df.columns.set_levels(
13      df.columns.levels[1].str
14        .replace(r'Unnamed: (\d).+', '\1', regex=True),
15      level=1)
16>>> df
17  社員番号      氏名 2021年1月 2021年2月
18         0         1  出勤日数  出勤日数
190      100  鈴木一郎        20        19
201      103  鈴木二郎        20        18
212      102  鈴木三郎        20        19
22
23>>> df.sort_values(('社員番号', '0'))
24  社員番号      氏名 2021年1月 2021年2月
25         0         1  出勤日数  出勤日数
260      100  鈴木一郎        20        19
272      102  鈴木三郎        20        19
281      103  鈴木二郎        20        18

※ 空文字列("")にしたかったのですが、インデックスは unique(一意)である必要があるので "0", "1" としています。

投稿2021/10/30 17:01

melian

総合スコア21294

sake3230

2021/10/31 09:08

ありがとうございました。０，１のインデックスは最後に削除してよいのですよね。

melian

2021/10/31 09:12

インデックスのユニーク制約のために両方を削除(空欄にする）ことができないのです。。。(どちらか片方だけになります）

行動規範の内容に同意します

ヘッダを１行にしてからソートすればいいですね。

Python
1import pandas as pd
2 
3df = pd.read_excel('test.xlsx' , sheet_name = 'Sheet1',header=[0,1] )
4print(df)
5"""
6  社員番号    氏名 2021年1月 2021年2月
7                出勤日数    出勤日数
80  100  鈴木一郎      20      19
91  103  鈴木二郎      20      18
102  102  鈴木三郎      20      19
11"""
12df_c = df.columns[:]
13df.columns = [c[0] for c in df_c]
14df_1 = df.sort_values(by='社員番号',ascending=True)
15df_1.columns = df_c
16print(df_1)
17"""
18  社員番号    氏名 2021年1月 2021年2月
19                出勤日数    出勤日数
200  100  鈴木一郎      20      19
212  102  鈴木三郎      20      19
221  103  鈴木二郎      20      18
23"""