numpyの配列の連結

numpyで配列を連結する際、複数の方法があるようですが、使い分けがわかりません。
試しに以下のコードを実行してみたところ、同じ結果が返ってきたように見えます。
これらに違いは無いのでしょうか？
メリットデメリットや、一般的によく使われているものなどあればご教授頂けたら幸いです。

import numpy as np

a = np.array([[1,2,3],[4,5,6],[7,8,9]])
b = np.array([[10,20,30],[40,50,60],[70,80,90]])

＜行方向の連結＞
np.r_[a,b]
np.vstack((a,b))
np.concatenate((a,b), axis=0)
------------ 結果 --------------
array([[ 1, 2, 3],
[ 4, 5, 6],
[ 7, 8, 9],
[10, 20, 30],
[40, 50, 60],
[70, 80, 90]])

＜列方向の連結＞
np.c_[a, b]
np.hstack((a,b))
np.concatenate((a,b), axis=1)
------------ 結果 --------------
array([[ 1, 2, 3, 10, 20, 30],
[ 4, 5, 6, 40, 50, 60],
[ 7, 8, 9, 70, 80, 90]])

行動規範の内容に同意します

回答1件

ベストアンサー

結果は同じです。
しかし実行時間やメモリ使用量は異なるかもしれませんのでjupyter notebook上で実行時間を計測してみました。

Python
1import numpy as np
2
3a = np.array([[1,2,3],[4,5,6],[7,8,9]])
4b = np.array([[10,20,30],[40,50,60],[70,80,90]])
5
6print('np.r_')
7%timeit np.r_[a,b]
8
9print('np.vstack')
10%timeit np.vstack((a,b))
11
12print('np.concatenate(axis=0)')
13%timeit np.concatenate((a,b), axis=0)
14
15print('np.c_')
16%timeit np.c_[a, b]
17
18print('np.hstack')
19%timeit np.hstack((a,b))
20
21print('np.concatenate(axis=1)')
22%timeit np.concatenate((a,b), axis=1)

結果

np.r_
The slowest run took 5.50 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 10.7 µs per loop
np.vstack
The slowest run took 4.12 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 3.58 µs per loop
np.concatenate(axis=0)
The slowest run took 8.48 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.17 µs per loop
np.c_
100000 loops, best of 3: 12.2 µs per loop
np.hstack
The slowest run took 4.02 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 3.44 µs per loop
np.concatenate(axis=1)
The slowest run took 7.45 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.17 µs per loop

上記によると、再遅と比較しての速度のばらつきは気になりますがconcatenateが最速のようです.

また、下記に似た話題がありました。
python why use numpy.r_ instead of concatenate
np.r_(np.c_も？)はpure pythonで実装されている（最適化されていない）ので、他より速くなることはないようです。

以上より、特にこだわりがなければconcatenateを使うのがよいと思います。

投稿2017/08/13 10:42