dataframe型の二次元配列をソートしたい

前提

print(dataframe)で以下のように出力されるdataframe型二次元配列があります。

nodenum1 nodenum2 nodenum3 throughput usage
10 10 1 166.66666666666666 0.0
10 10 10 166.66666666666666 0.0
10 10 11 166.66666666666666 0.0
10 10 12 166.66666666666666 0.0
... ... ... ... ... ...
9 9 6 166.66666666666666 0.0
9 9 7 166.66666666666666 0.0
9 9 8 166.66666666666666 0.0
9 9 9 166.66666666666666 0.0

これを
nodenum1 nodenum2 nodenum3 throughput usage
1 1 1 166.66666666666666 0.0
1 1 2 166.66666666666666 0.0
1 1 3 166.66666666666666 0.0
1 1 4 166.66666666666666 0.0
... ... ... ... ... ...
16 16 13 166.66666666666666 0.0
16 16 14 166.66666666666666 0.0
16 16 15 166.66666666666666 0.0
16 16 16 166.66666666666666 0.0

この形にソートしたいです。
nodenum1 nodenum2 nodenum3 throughput usage　はcolumn指定できていません。

実現したいこと

・nodenum1, nodenum2, nodenum3の値で行ごとソートしたいです。
・nodenum1, nodenum2, nodenum3の組み合わせと　throughput, usageはセットの値なので離したらダメ

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

python
1from scipy.interpolate import RegularGridInterpolator
2import numpy as np
3import pandas as pd
4import time
5
6
7
8dt = pd.read_csv("calc_result_queue3_Ariyoshi.csv", header=None)
9
10for a in range(3):
11   for i in range(len(data[a][1:])+1):
12       if i == 0:
13          continued
14       data[a][i] = int(data[0][i])
15
16
17
18columns2 = dt.iloc[0]
19
20df2 = pd.DataFrame(data = dt[1:], columns=columns2)
21
22
23### 試したこと
24
25nodenum1 nodenum2 nodenum3 throughput usage の行をカラム指定してそれ以下をデータとして新しいdataframeを作ってpandas.DataFrame.sort_valuesでソートしようと思ったのですが新しいdataframeを作る際のデータの部分が欠損価（NaN）になってしまいます
26
27### 補足情報（FW/ツールのバージョンなど）
28
29ここにより詳細な情報を記載してください。

melian

2023/01/15 19:18

dt.sort_values(['nodenum1', 'nodenum2', 'nodenum3'])

行動規範の内容に同意します

回答1件

見出し行の有無がよく分かりませんが、以下のような感じで列名あるいは列位置で指定することができます。

Python
1import pandas as pd
2from io import StringIO
3
4s = """nodenum1,nodenum2,nodenum3,throughput,usage
52,1,1,4,44
61,2,1,3,33
71,1,2,2,22
81,1,1,1,11"""
9
10# 見出し行（列名）も含めて読み込む場合
11df = pd.read_csv(StringIO(s))
12# 素直に列名で指定
13df = df.sort_values(['nodenum1','nodenum2','nodenum3'])
14print(df)
15# 以下にて数値で列指定することも可能
16df = df.sort_values(df.columns[[0,1,2]].tolist())
17print(df)
18#   nodenum1  nodenum2  nodenum3  throughput  usage
19#3         1         1         1           1     11
20#2         1         1         2           2     22
21#1         1         2         1           3     33
22#0         2         1         1           4     44
23
24# 見出し行（列名）は読み込まない場合
25df = pd.read_csv(StringIO(s), header=None, skiprows=1)
26# 直接数値で列指定できる
27df = df.sort_values([0,1,2])
28print(df)
29#   0  1  2  3   4
30#3  1  1  1  1  11
31#2  1  1  2  2  22
32#1  1  2  1  3  33
33#0  2  1  1  4  44

投稿2023/01/16 01:05

編集2023/01/16 07:24

can110

総合スコア38266

19220049

2023/01/16 06:53

data = pd.read_csv("calc_result.csv", header=None) print(data) data = data.sort_values(['nodenum1', 'nodenum2', 'nodenum3']) このようにコードを書くと、 0 1 2 3 4 0 nodenum1 nodenum2 nodenum3 throughput usage 1 10 10 10 166.66666666666666 0.0 2 10 10 10 166.66666666666666 0.0 3 10 10 10 166.66666666666666 0.0 4 10 10 10 166.66666666666666 0.0 ... ... ... ... ... ... 3116 9 9 9 166.66666666666666 0.0 3117 9 9 9 166.66666666666666 0.0 3118 9 9 9 166.66666666666666 0.0 3119 9 9 9 166.66666666666666 0.0 3120 9 9 9 166.66666666666666 0.0 [3121 rows x 5 columns] Traceback (most recent call last): File "C:\Users\raibo\OneDrive\デスクトップ\研究室\卒研\python練習用\ss.py", line 17, in <module> data = data.sort_values(['nodenum1', 'nodenum2', 'nodenum3']) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\raibo\OneDrive\デスクトップ\Lib\site-packages\pandas\util\_decorators.py", line 331, in wrapper return func(*args, **kwargs) ^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\raibo\OneDrive\デスクトップ\Lib\site-packages\pandas\core\frame.py", line 6891, in sort_values keys = [self._get_label_or_level_values(x, axis=axis) for x in by] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\raibo\OneDrive\デスクトップ\Lib\site-packages\pandas\core\frame.py", line 6891, in <listcomp> keys = [self._get_label_or_level_values(x, axis=axis) for x in by] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\raibo\OneDrive\デスクトップ\Lib\site-packages\pandas\core\generic.py", line 1850, in _get_label_or_level_values raise KeyError(key) KeyError: 'nodenum1' 以上のようにエラーが出ます。これはnodenum1~3をカラム指定していないからですか？その際どうすればいいですか？