PandasのDataFrameの列を行番号・列番号とみなして、numpyのarrayを作りたい

以下のようなDataFrameがあります。

このDataFrameをnumpyのarrayに変換したいのですが、このとき、

arrayのi行j列目の値をxとしたい
欠損している値は0.0としたい

つまり、

array([[90. ,  0. ,  0. ],
       [91. , 91.1,  0. ],
       [92. ,  0. , 92.2]])

のような配列がほしく、単純なforループで書くと

# data: 上記DataFrameとする
arr = np.zeros((data['i'].max() + 1, data['j'].max() + 1))
for _, row in data.iterrows():
    arr[int(row['i']), int(row['j'])] = row['x']

のようになります。

けれど、この方法だと、DataFrameが巨大になったとき、非常に効率が悪いと思うので、これに相当する処理を効率よく書く方法を教えてください。

bsdfan

2021/05/18 11:31

解決済みなのでこちらにコメントさせていただきます。ループ使わずに、下記のように書けます。 arr = np.zeros((data['i'].max() + 1, data['j'].max() + 1)) arr[data['i'], data['j']] = data['x']

gyu-don

2021/05/18 13:44

たしかに。それでいけますね。気づかなかった…。ありがとうございます。

行動規範の内容に同意します

回答2件

ベストアンサー

こうです。

python
1>>> import pandas as pd
2>>> import io
3>>>
4>>> indata = '''i j x
5... 0 0 90.0
6... 2 0 92.0
7... 1 1 91.1
8... 1 0 91.0
9... 2 2 92.2'''
10>>>
11>>> with io.StringIO(indata) as f:
12...     df = pd.read_csv(f, sep=' +', engine='python')
13...
14>>> print(df)
15   i  j     x
160  0  0  90.0
171  2  0  92.0
182  1  1  91.1
193  1  0  91.0
204  2  2  92.2
21>>>
22>>> arr = df.pivot(index='i', columns='j').fillna(0).values
23>>> arr
24array([[90. ,  0. ,  0. ],
25       [91. , 91.1,  0. ],
26       [92. ,  0. , 92.2]])

投稿2021/05/18 09:56

ppaul

総合スコア24670

gyu-don

2021/05/18 10:06

まさに求めていたものが用意されていたのですね。ありがとうございます。 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.pivot.html

行動規範の内容に同意します

scipy.sparse.csr_matrixを使うと簡潔に書けます。
行列が巨大であれば疎行列のまま扱うほうがよいかもしれません。
参考：Python, SciPy（scipy.sparse）で疎行列を生成・変換

Python
1from scipy.sparse import csr_matrix, csc_matrix, coo_matrix, lil_matrix
2import pandas as pd
3
4df = pd.DataFrame({'i':[0,2,1,1,2], 'j':[0,0,1,0,2], 'x':[90,92,91.1,91,92.2]})
5
6shape = (max(df['i'])+1, max(df['j'])+1)
7csr = csr_matrix( (df['x'], (df['i'],df['j'])), shape=shape)
8a = csr.toarray()
9print(a)
10#[[90.   0.   0. ]
11# [91.  91.1  0. ]
12# [92.   0.  92.2]]