1つのdataframeにあるの2つの変数の近似値の見つけ方

実現したいこと

200万程度のレコードがあるdf1の変数targetの数値の中で、変数tempの数値に近いレコードを見つけたいのですが、下の配列を使ったソースコードだと結果が返ってくるまでの時間がかかり過ぎるため、より短時間で結果を得られるようにしたいです。
改善案がありましたら教えてください。

該当のソースコード

Spark
1import numpy as np
2
3def find_closest(arr, val):
4    idx = np.abs(arr - val).argmin()
5    
6    return arr[idx]
7
8    
9target = np.array(df1.select('val1').collect())
10df2 = df1.withColumn('closest', find_closest(target, temp))

melian

2023/03/28 10:10

確認ですが、select や collect, withColumn というメソッドを使われているので Polars でしょうか？

mom_mom

2023/03/29 00:06

PySparkです。

melian

2023/03/29 00:11

ああ、すっかり勘違いをしていました。失礼しました。

行動規範の内容に同意します

回答1件

Polars を利用していると仮定。

python
1import polars as pl
2import numpy as np
3
4M = 20_000_000
5N = 2_000_000
6df1 = pl.DataFrame({'val1': np.random.randint(0, M, N)})
7temp = np.random.randint(0, M)
8
9idx = df1.select((pl.col('val1') - temp).abs().arg_min())[0, 0]
10df2 = df1[idx]
11print(df2)
12
13# shape: (1, 1)
14# ┌─────┐
15# │ val1     │
16# │ ---      │
17# │ i64      │
18# ╞═════╡
19# │ 13116957 │
20# └─────┘