配列内で重複のない連続領域の抽出

Pythonで”配列内で重複のない右側からの連続領域の抽出”を　最も計算コストの低い方法で実現したいです。

具体的には、
[1,2,3,4,1,2,5]
という配列があったとして、右側から値を見ていき、重複が出るまで左に進む、
というようなイメージです。このケースでは得たい結果は
[3 4 1 2 5]
ということになります。

パッと思いつくのは、

python
1arr = np.array([1,2,3,4,1,2,5])
2
3max_index = 0
4for i in arr:
5    if arr[max_index:].size != np.unique(arr[max_index:]).size:
6        max_index += 1
7
8print(arr[max_index:])

のようなコードなのですが、配列を実質全部サーチするのに近い処理となり、
配列が長くなると処理時間が掛かりそうです。

上記コード以外で、何か良い方法があればご教示いただけますでしょうか

行動規範の内容に同意します

回答1件

ベストアンサー

重複チェック用の変数をSet型か何かで用意しておいて、右から順にチェックしていけば良いのでは?
たとえば、こんな感じで。

python
1
2import numpy as np
3
4data = [1,2,3,4,1,2,5] * 10**5
5arr = np.array(data)
6
7duplicated = set()
8res = []
9for a in reversed(arr):
10    if a in duplicated:
11        break
12    res.append(a)
13    duplicated.add(a)
14
15ans = np.array(res[::-1])
16print(ans)

投稿2021/09/22 05:10

退会済みユーザー

総合スコア0

lehshell

2021/09/22 09:50

append しない方が少し速そうです。 arr = np.array(data) duplicated = set() for i,a in enumerate(reversed(arr)): if a in duplicated: break duplicated.add(a) ans = arr[len(arr)-i:]

退会済みユーザー

2021/09/22 10:52

確かに。ただ、これだとarr内に重複が無い場合に arr[1:] となって1つ欠けませんか。こちらの環境(Python 3.8.11)で試した限りでは、以下の方式でもlehshellさんの案と同じくらい速いです???? # 辞書順が保証される環境のみ seen = {} for a in reversed(arr): if a in seen: break seen[a] = True ans = np.array(list(reversed(seen)))

lehshell

2021/09/22 12:30

失礼しました。確かに重複がない場合に欠けてしまいます。 set で行う場合は次のコードに修正が必要です。 arr = np.array(data) duplicated = set() idx = 0 for i,a in enumerate(reversed(arr)): if a in duplicated: idx = len(arr)-i break duplicated.add(a) ans = arr[idx:]