編集履歴

回答編集履歴

さらについき

2018/06/14 13:05

投稿

hayataka2049

スコア30933

test CHANGED Viewed

@@ -87,3 +87,21 @@
 まるごと変換する時間を関数の外に出しているので、同列に比較はできないんですが。Aがそんな頻繁に変わらないなら大丈夫でしょう。3桁速いです（データをでかくしたからなんだけど）。
 小手先のテクニックで多少速くしたところで、線形探索したらO(n)です。でかいデータが相手だと、でかさに比例した時間がかかります。hashにすればO(1)です。ということを考える必要があります。
+### 更に追記
+```python
+print(timeit.timeit(lambda :{tuple(elem[:4]):elem[4] for elem in A}, number=1))
+""" =>
+2.8804931649938226
+"""
+```
+100万で3秒弱。ただし1000万に増やすとメモリ消費と処理時間がすごいことになります。まあ、微妙かも。

追記

2018/06/14 13:05

投稿

hayataka2049

スコア30933

test CHANGED Viewed

@@ -17,3 +17,73 @@
 自分でifを書くのとどっちが速いのかはやってみないとわかりませんが、まあ選択肢は色々あります。私のあのコードをなぞる必要はないです。
+### この質問とはあまり関係のないアドバイス
+前回の質問は「numpy配列から探せ」という注文だったから、あえて書かなかったんですが、速さを求めるなら、たとえばこういうアプローチがあります。
+```python
+import timeit
+import numpy as np
+A = np.arange(5000000).reshape((1000000, 5))  # 注目
+def fa(a,b,c,d):
+    """
+    前回の回答の方式
+    """
+    tmp = A
+    for i, eqv in enumerate([a,b,c,d]):
+        tmp = tmp[tmp[:,i] == eqv]
+    tmp[:,-1]
+# 予めまるごとdictに変換しておけば極めて有利
+hashdic = {tuple(elem[:4]):elem[4] for elem in A}
+def fb(a,b,c,d):
+    hashdic.get((a,b,c,d))
+print(timeit.timeit(lambda : fa(0,1,2,3), number=1000))
+print(timeit.timeit(lambda : fb(0,1,2,3), number=1000))
+""" =>
+6.048210394001217
+0.0035514350020093843  # すごーい
+"""
+```
+まるごと変換する時間を関数の外に出しているので、同列に比較はできないんですが。Aがそんな頻繁に変わらないなら大丈夫でしょう。3桁速いです（データをでかくしたからなんだけど）。
+小手先のテクニックで多少速くしたところで、線形探索したらO(n)です。でかいデータが相手だと、でかさに比例した時間がかかります。hashにすればO(1)です。ということを考える必要があります。

追記

2018/06/14 12:58

投稿

hayataka2049

スコア30933

test CHANGED Viewed

@@ -6,7 +6,7 @@
-逆に、私がnumpyで書いた方法はループごとにスライスして動的メモリ確保して、と余計なオーバーヘッドがあるので、恐らくCで同じことをやっても遅いです。python+numpyだと素直にやったのでは性能が出ないので、トリッキーな方法を取りましたが。あれはnumpyで行の比較を短絡評価する方法が探しても見つからなかったので、ああいうコードにした次第です。
+逆に、私がnumpyで書いた方法はループごとにスライスして動的メモリ確保して、と余計なオーバーヘッドがあるので、（書けたとして）恐らくCで同じことをやっても遅いです。python+numpyだと素直にやったのでは性能が出ないので、トリッキーな方法を取りましたが。あれはnumpyで行の比較を短絡評価する方法が探しても見つからなかったので、ああいうコードにした次第です。