python 配列高速ソート

次のような配列xがあり(実際に使用するデータはもっと大きい)，そのデータから次のソースコードで得られる結果resul1,result2を得たいです．実際のデータにおいても配列x[0],x[1]...はそれぞれソートされているものとします．
得たい結果は

xの全要素をソートした結果のうち5以下のものからなる配列result1
result1の要素がxの何番目の要素であったかを表す配列result2

です．

次のソースコードを用いても欲しい結果は得られますが，扱うデータが巨大なため，実行に時間がかかりすぎてしまいます．
リスト内包表記を用いる方法など，何か高速な方法はありますでしょうか？

扱うデータ

python
1import numpy as np
2
3a = np.array([1, 2.3, 3.1, 4.6, 6.7])
4b = np.array([2.3, 4.2])
5c = np.array([])
6d = np.array([2.5, 3.2, 4.3, 4.4, 4.8, 5.0])
7x = [a, b, c, d]

自作コード

python
1import numpy as np
2
3result1 = []
4result2 = []
5append1 = result1.append
6append2 = result2.append
7
8while True:
9  value = 6
10  for i in range(len(x)):
11    if x[i].size and value > x[i][0]:
12      value = x[i][0]
13      index = i
14
15  if value > 5:
16    break
17
18  append1(value)
19  append2(index)
20  x[index] = np.delete(x[index], 0)

自作コードで得られる結果かつ得たい結果
result1=[1.0, 2.3, 2.3, 2.5, 3.1, 3.2, 4.2, 4.3, 4.4, 4.6, 4.8, 5.0]
result2=[0, 0, 1, 3, 0, 3, 1, 3, 3, 0, 3, 3]

以前にも似たような質問をさせていただきましたが，xのそれぞれの要素x[0],x[1]...がソート済みであると明示せずに，質問させていただいたので，ソート済みであればより早い方法があるのではないかと思い質問させていただきました．

行動規範の内容に同意します

回答3件

ベストアンサー

データ量が10**6程度までであれば、過去のやりとりで出てきているnumpy.argsortで十分高速だと思います。

python
1import numpy as np
2
3# オリジナル
4def solve1(x):
5    result1 = []
6    result2 = []
7    append1 = result1.append
8    append2 = result2.append
9
10    while True:
11        value = 6
12        for i in range(len(x)):
13            if x[i].size and value > x[i][0]:
14                value = x[i][0]
15                index = i
16        if value > 5:
17            break
18
19        append1(value)
20        append2(index)
21        x[index] = np.delete(x[index], 0)
22    return result1, result2
23
24# numpy.argsort()使用
25def solve2(x, limit=5.0):
26    x = [arr[:np.searchsorted(arr, limit, side='right')] for arr in x]
27    result1 = np.concatenate(x)
28    result2 = np.concatenate([np.full(arr.size, i) for i, arr in enumerate(x)])
29    idx = np.argsort(result1, kind='mergesort')
30    return result1[idx], result2[idx]
31
32
33np.random.seed(123)
34size = 10**5  # テスト用のデータサイズ
35a = np.sort(np.random.rand(size) * 10)
36b = np.sort(np.random.rand(size) * 10)
37c = np.sort(np.random.rand(size) * 10)
38d = np.sort(np.random.rand(size) * 10)
39
40x = [a, b, c, d]
41r11, r12 = solve1(x)
42
43x = [a, b, c, d]
44r21, r22 = solve2(x)
45
46print(r11 == r21.tolist() and r12 == r22.tolist()) # 結果が同じかチェック

投稿2021/10/11 13:56

退会済みユーザー

総合スコア0

bobslay

2021/10/12 05:42

ご回答ありがとうございます．実際に使用したいデータを見たところ，サイズが10^10ほどでした．そもそもデータ量が大きすぎてこれ以上高速に実行できないのではないかと思ってきました．．．

退会済みユーザー

2021/10/12 06:31

10^10は大きいですね。確認ですが、お使いのマシンでは10^10のデータでもオンメモリで処理できるだけのRAMを搭載しているんですよね? 私の環境(RAM 32GB)だと size=10**8で処理時間が4.5秒、size=5*10**8で144秒(ただしRAM不足でスワップ発生)でした。データサイズを少しずつ大きくしながら試してみてはどうでしょうか。

行動規範の内容に同意します

並列処理をすることで高速化できないでしょうか？以下、参考URL

データサイエンスのためのPython入門32〜これだけ知っておけばいいmultiprocessingでの並列処理

Python, Joblibでシンプルな並列処理（joblib.Parallel）

投稿2021/10/11 06:34

coffeebar

総合スコア140

bobslay

2021/10/11 10:54

ご回答ありがとうございます．並列化について勉強してみようと思います．

bobslay

2021/10/12 12:30

複数のデータを引数として，同じ関数を何度も呼び出すような処理に対して並列化は有効であるようでしたが，すべてのデータに対してソートを行いたい場合には，うまく並列化する方法は見つかりませんでした． (データを分割し，それぞれについてソートした後に全体についてソートしていくマージソートのようなことをすると高速化可能？)

行動規範の内容に同意します

実際のデータ量が不明ですが、以下で実用的な速度は出ないでしょうか？
各リストがソート済みであることを生かして、itertools.takewhileにて値の抽出とマージソートを利用しています。

Python
1import numpy as np
2from heapq import merge
3import itertools
4
5a = np.array([1, 2.3, 3.1, 4.6, 6.7])
6b = np.array([2.3, 4.2])
7c = np.array([])
8d = np.array([2.5, 3.2, 4.3, 4.4, 4.8, 5.0])
9x = [a, b, c, d]
10
11#x = [np.sort(np.random.random((100,)))*10 for _ in range(100)]
12
13l = [[(v, i) for v in itertools.takewhile( lambda e : e <= 5, ary)] for i, ary in enumerate(x)]
14r1, r2 = itertools.tee(merge(*l)) # ソート済みを生かしてマージソートする
15result1 = [e[0] for e in r1]
16result2 = [e[1] for e in r2]
17
18print(result1)# [1.0, 2.3, 2.3, 2.5, 3.1, 3.2, 4.2, 4.3, 4.4, 4.6, 4.8, 5.0]
19print(result2)# [0, 0, 1, 3, 0, 3, 1, 3, 3, 0, 3, 3]