python pandas ユークリッド距離　メモリを極力使わない方法

座標の入ったファイルをdfに読み込み、
各座標の最短距離を算出し密集具合をヒストグラムで表示していたのですが、
データが多くなりすぎて、メモリエラーが出る様になりました。

データ数の二乗の距離数から最短距離を求める方法なので、
メモリの無駄使いが多いのかと予想しています。

ネットで調べた自己流のやり方でしたので、他にいい方法をご存じの方は、
アドバイスをいただけないでしょうか？

今まで使っていいたコード

a = df[['LATITUDE','LONGITUDE']].values
b = df[['LATITUDE','LONGITUDE']].values#同一座標データを２つにcopyする。
dist = distance.cdist(a, b, metric='euclidean')
dist = np.where(dist > 0,dist,1000)#同一座標点のゼロ距離は除外する。
Lmin = np.min(dist, axis=1)
df['最小距離']=Lmin
<略>
sns.distplot(df['最小距離'],bins=500,color='b',norm_hist=True)
<略>

出ているエラー

MemoryError                               Traceback (most recent call last)
<ipython-input-14-eff900ec0b5c> in <module>
----> 1 dist = np.where(dist > 0,dist,1000)
<__array_function__ internals> in where(*args, **kwargs)
MemoryError: Unable to allocate 60.6 GiB for an array with shape (90198, 90198) and data type float64

退会済みユーザー

2021/11/16 12:26 編集

うまくいく保証がないのでコメント欄で…。データ形式）どこまで精度がいるかですが、float64はかさばるのでfloat16にするだけでもずいぶん軽くなりそうです。なにかしらのnumpy_array = なにかしらのnumpy_array.astype(np.float16) プログラミング) 以下のように、aとaを比較すればbを定義しなくても良いと思いますがどうですか？ dist = distance.cdist(a, a, metric='euclidean') 処理を分ける） dist = np.where(dist > 0,dist,1000) でこけるのであれば、 1. dist を一度npy形式で保存 2. delを使って用が済んだ変数を削除 3. gcでメモリを確保 4. distをディスクからロード 5. 改めてdist = np.where(dist > 0,dist,1000) 最後の手段) swapを増やす

icemanstanding

2021/11/16 14:38

ありがとうございます。ご教授いただいたアドバイスを参考に a = df[['LATITUDE','LONGITUDE']].values.astype(np.float16) dist = distance.cdist(a, a, metric='euclidean').astype(np.float16) del a dist = np.where(dist > 0,dist,1000).astype(np.float16) で回り切りました。

icemanstanding

2021/11/16 20:41

ぜひ回答に記入ください。ベストアンサーに選ばせていただきたいです。

行動規範の内容に同意します

回答1件

ベストアンサー

----> 1 dist = np.where(dist > 0,dist,1000)

この行でエラーが起きていますので、このエラーが起きる直前でのメモリ使用量を下げる方法を検討します。

dist = distance.cdist(a, b, metric='euclidean')としていますが、
a,bが等しいとのことですので、以下のようにaとaの比較をすれば
dist = distance.cdist(a, a, metric='euclidean')とすれば、
bの定義がいらなくなり、メモリ使用量がおおむね半減できると考えられます。

他の方法として、

かさばるnp.float64をnp.float16にすればメモリ使用量を1/4に圧縮（精度も落ちます）
distを計算した後にファイルとして保存、これまで使用した変数をdelで削除、gcでメモリを確保、奇麗になったメモリ上にdistをロードしなおして計算の続きをする
どうにもだめならswap領域を増やす

が考えられます。

投稿2021/11/16 21:15

退会済みユーザー

総合スコア0