回答率: 85.35%

質問するログイン新規登録

トップ NumPyに関する質問 for文で書かれたデータフレーム処理の高速化

編集履歴

回答編集履歴

2

2020/07/17 04:29

投稿

スコア1399

test CHANGED Viewed

@@ -20,7 +20,7 @@
     idx = cartesian([np.arange(length) for length in lens])
-    offset = np.concatenate(([0], lens.cumsum()[:-1]))
+    offset = lens.cumsum() - lens

1

追記

2020/07/17 04:29

投稿

スコア1399

test CHANGED Viewed

@@ -1,4 +1,4 @@
-コードを整理すればもっといい方法があるかもしれませんが、いかがでしょうか。`itertools.product`より速いと思われます（特に各要素が数値なら）。
+コードを整理すればもっといい方法があるかもしれませんが、以下の方法でいかがでしょうか。`itertools.product`より速いと思われます（特に各要素が数値なら）。
@@ -34,7 +34,7 @@
-動作確認
+## 動作確認
@@ -217,3 +217,67 @@
 # (後略)
 ```
+## 速度比較
+```python
+In [21]: def df_product_itertools(df_list):
+       :     lsts = [df.to_numpy().tolist() for df in df_list]
+       :     new_list = [reduce(add, e) for e in itertools.product(*lsts)]
+       :     return pd.DataFrame(new_list, columns=np.concatenate(
+       :        [df.columns.to_numpy() for df in df_list]))
+In [22]: l_1 = [[1, 2], [3, 4]]
+       : l_2 = [[11, 22], [33, 44]]
+       : l_3 = [[111, 222], [333, 444]]
+       : l_4 = [[1111, 2222], [3333, 4444]]
+       : l_5 = [[11111, 22222], [33333, 44444]]
+       :
+       : df1 = pd.DataFrame(l_1, columns=['A', 'B'])
+       : df2 = pd.DataFrame(l_2, columns=['C', 'D'])
+       : df3 = pd.DataFrame(l_3, columns=['E', 'F'])
+       : df4 = pd.DataFrame(l_4, columns=['G', 'H'])
+       : df5 = pd.DataFrame(l_5, columns=['I', 'J'])
+In [23]: %timeit df_product([df1, df2, df3, df4])
+       : %timeit df_product_itertools([df1, df2, df3, df4])
+355 µs ± 18.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
+928 µs ± 16.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
+In [24]: %timeit df_product([df1, df2, df3, df4, df5])
+       : %timeit df_product_itertools([df1, df2, df3, df4, df5])
+378 µs ± 12.9 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
+1.12 ms ± 17.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
+```