csvを読み込んだ二次元配列を特定の列を基準にソート

numpyでcsvを配列に取り込み、特定の列を基準にソートして再出力しようとおもっています
今回は36列目を基準にソートしたいのですが、取り込む配列には1行目がヘッダーとなっています
ただソートしただけではヘッダー部分もソートの対象となってしまうので一度np.delete()でヘッダー部分を削除してsort()でソートを行い、再出力する前にヘッダー部分を挿入しようと思いました
しかしnp.delete()でヘッダーを削除したあとにソートを行おうとすると
TypeError: 'key' is an invalid keyword argument for sort()
といったエラーが返ってきます
np.delete()を行わずソートした場合、ソートはできるのですが、ヘッダー部分もソートの対象となってしまいます
以下がcsvの読み込み、ヘッダーの削除、ソート、ヘッダーの挿入部分のコードになります

Python
1filename = os.path.splitext(os.path.basename(sys.argv[1]))[0]
2ha = (np.loadtxt(fname=sys.argv[1], dtype="str",delimiter=",",)).tolist()
3header = ha[0]
4ha = np.delete(ha, 0, 0)
5ha.sort(key=lambda x: int(x[35]))
6ha = np.insert(ha, 0, header)

検索してみても解決策がいまいちわかりませんでした
ヘッダー部分はそのままでソートを行う方法はなにかありますでしょうか？

行動規範の内容に同意します

回答4件

ベストアンサー

can110さん、bsdfanさんが書かれているように、numpyでやるよりもpandasを使う方が簡単です。

その理由は、numpyのndarrayとpandasのDataFrameではデータの型の持ち方が(表面上)違うためです。

numpyのndarrayは多次元の配列で、全体として一つの型(dtype)を持ちます。そのために、１行目に文字列があり、２行目以降が全て浮動小数や整数であったとしても型はstrにしないと読み込めなかったりします。１行目を読み飛ばせば浮動小数として読める場合もありますが、文字列の列と浮動小数や整数の列が混在しているとそれもできません。

pandasのDataFrameは二次元の表で、列名(columns)を持ち、列ごとに型(dtype)を持ちます。そのため、csvファイルをより柔軟に読み込んで操作することができます。

実装上は、DataFrameの値(values)はnpのndarrayを使っているのですが、使用する場合のインタフェースはpandasが吸収してくれるのでnumpyの難しい部分を気にする必要はありません。

投稿2021/06/07 11:30

ppaul

総合スコア24670

mxrs2

2021/06/08 01:31

＞文字列の列と浮動小数や整数の列が混在しているとそれもできません。まさにここで悩んでいました他の方が言っているようにPandasを利用しようと思います

行動規範の内容に同意します

こういう場合はpandasを使うと簡単にできると思います。

numpyで頑張るなら、

python
1ha = np.loadtxt(fname=sys.argv[1], dtype=str, delimiter=',')
2
3# ヘッダ行を除いて35列目をintとしてargsort (+1はヘッダ行分)
4idx = ha[1:, 35].astype(int).argsort() + 1
5
6
7# ソート後の配列 (ヘッダ行(0)を先頭に追加)
8ha = ha[np.r_[0, idx]]
9
10# np.r_ が分かりにくければ、これでもいいです
11# ha = ha[[0] + idx.tolist()]

投稿2021/06/07 08:05

bsdfan

総合スコア4794

この手の処理はpandasを使った方が簡単ですので利用を検討ください。

Python
1import pandas as pd
2
3df = pd.read_csv('inp.txt')
4"""
5c1,c2,c3
6a,1,30
7b,2,20
8c,3,10
9"""
10
11df = df.sort_values(df.columns[2]) # "c3"列で昇順ソート
12print(df)
13#  c1  c2  c3
14#2  c   3  10
15#1  b   2  20
16#0  a   1  30
17
18df.to_csv('out_pandas.txt', index=False)
19"""
20c1,c2,c3
21c,3,10
22b,2,20
23a,1,30
24"""

投稿2021/06/07 08:00

8524ba23

総合スコア38341

python
1import os
2import numpy as np
3import sys
4
5filename = os.path.splitext(os.path.basename(sys.argv[1]))[0]
6ha = np.loadtxt(fname=sys.argv[1], dtype="str", delimiter=",",)
7print(ha)
8# [['a' 'one' 'two' 'three']
9#  ['one' '0' '2' '5']
10#  ['two' '5' '4' '3']
11#  ['three' '1' '1' '8']]
12
13header = ha[0]
14# 1行目削除
15ha = np.delete(ha, 0, 0)
16
17# 列を指定して並び替え その時のインデックス情報を取得
18index = np.argsort(ha[:, 2])
19# 取得したインデックス情報で配列要素を並び替え
20ha = ha[index, :]
21
22# 削除したヘッダを挿入 
23ha = np.insert(ha, 0, header, axis=0)
24print(ha)
25# [['a' 'one' 'two' 'three']
26#  ['three' '1' '1' '8']
27#  ['one' '0' '2' '5']
28#  ['two' '5' '4' '3']]