pandasを高速化したいです

python
1import pandas as pd    
2df = pd.DataFrame()         
3df["column"] = [["a", "c", "e"], ["b"], ["c", "e"], ["a", "e"], ["a", "b", "c"]]    
4df.head()   
5
6>>       column
70  [a, c, e]
81        [b]
92     [c, e]
103     [a, e]
114  [a, b, c]

のようなデータフレームがあるとします。

<やりたいこと>
columnの取りうる値全てに対して、それぞれ各行に対してバイナリーの変数に変換したいです。
つまり
|a|b|c|d|e|
|:--:|:--:|--:|
|1|0|1|0|1|
|0|1|0|0|0|
|0|0|1|0|1|
|1|0|0|0|1|
|1|1|1|0|0|

を得たいです。

<試したこと>
uniqは取りうる値を格納しています。

python
1for col in uniq:
2    df[col] = 0
3
4    for i in range(len(df)):
5        if col in df.loc[i, "column"]:
6            df.loc[i, col] = 1 
7        else:
8            df.loc[i, col] = 0
9

<解決したいこと>

実際に扱っているデータフレームは三万行くらいで、取りうる値は10個くらいであり、
かなり遅いです。
実際にはこの操作を複数回行う必要があり、上の操作を高速化する必要があります。
お力添えいただけないでしょうか？

行動規範の内容に同意します

回答4件

コードは汚いですがcolumnの各文字列を数値化してnumpyでフラグ配列化すると速いです。
参考：Convert integer to binary array with suitable padding

Python
1import pandas as pd
2import random
3import numpy as np
4
5# テストデータ
6CHARS = 'abcdefghij' # 'abc'など
7N = 30000 # 5など
8lst = []
9for i in range(N):
10    lst.append(random.sample(CHARS,random.randint(1,len(CHARS))))
11df = pd.DataFrame({"column":lst})
12
13# テストデータ
14df = pd.DataFrame({"column":[["a", "c", "e"], ["b"], ["c", "e"], ["a", "e"], ["a", "b", "c"]]})
15print(df)
16
17#
18# ['b','a','c] -> 1+2+4 = 7
19# ['a'] -> 2 = 2
20# のように文字列の出現順に数値化
21#
22txt2bin = {} # 'a'-> 2 など
23bin = 1
24def f(l):
25    global bin
26    n = 0
27    for c in l:
28        if c not in txt2bin:
29            txt2bin[c] = bin
30            bin <<= 1
31        n += txt2bin[c]
32    return n
33
34a = df['column'].apply(f).values
35
36# 数値->フラグ配列化
37b = (((a[:,None] & (1 << np.arange(len(txt2bin))))) > 0).astype(int)
38
39# フラグ配列の並び順に列名を並べる
40columns = sorted(txt2bin.items(), key=lambda e:e[1])
41columns = [ v[0] for v in columns]
42
43ret = pd.DataFrame(b, columns=columns)
44
45# 列名を昇順に
46ret = ret.loc[:,sorted(columns)]
47print(ret)
48"""
49   a  b  c  e
500  1  0  1  1
511  0  1  0  0
522  0  0  1  1
533  1  0  0  1
544  1  1  1  0
55"""

投稿2019/09/28 02:22

編集2019/09/28 08:11

can110

総合スコア38262

siruku6

2019/09/28 07:17

きっと早いのだと思いますが、あとあと修正するかもしれないことを考えると、この方法を使用する決断はしにくいですね。でも非常に勉強になります。

can110

2019/09/28 08:17

実際に速いです。修正内容にもよるかと思うので採用できないのは残念ですが 100万行でもほぼ一瞬なので速度面ではメリットあるかと思います。

siruku6

2019/09/28 08:36

本当に速度が重要なシステムだったら、多少可読性を犠牲にしてでもこういった方法を使用した方がいいのでしょうね。ベストアンサーの回答も相当早そうなので、もし必要になったら実際の要件に従って実装して、速度比較ですね。

行動規範の内容に同意します

ベストアンサー

ループなし、ワンライナーで書いてみました。
やってることは

リストをセルに分割
stack() で縦に並べ替え
pandas.get_dummies()でOne-Hot化
元のIndex番号同志で結合（sum()）

です

Python
1import pandas as pd
2df = pd.DataFrame({"column":[["a", "c", "e"], ["b"], ["c", "e"], ["a", "e"], ["a", "b", "c"]]})
3ret = pd.get_dummies(df['column'].apply(pd.Series).stack()).groupby(level=0).apply(sum)
4#   a  b  c  e
5#0  1  0  1  1
6#1  0  1  0  0
7#2  0  0  1  1
8#3  1  0  0  1
9#4  1  1  1  0

投稿2019/09/27 13:59

magichan

総合スコア15898

siruku6

2019/09/27 23:00 編集

このやり方の方が圧倒的に早いですね！何万行あってもすぐに終わるのではないでしょうか、、

nouken

2019/09/29 05:50

10秒ほどでいけました。ありがとうございました〜

行動規範の内容に同意します

dataframeをfor文の中で使用すると死ぬほど遅いです。
吐き気がするほどに。

ですので、どうしてもloop処理したいのであれば、辞書型などに変換してしまうのがおすすめです。
（可読性は下がりますが...）

python
1import pandas as pd
2
3# データの準備
4df = pd.DataFrame()         
5df["column"] = [["a", "c", "e"], ["b"], ["c", "e"], ["a", "e"], ["a", "b", "c"]]    
6uniq = ['a', 'b', 'c', 'd', 'e']
7
8# メインのloop処理
9dict_results = []
10for items in df.to_dict()['column'].values():
11    tmp_dict_result = {'a': 0, 'b': 0, 'c': 0, 'd': 0, 'e': 0}
12    for col in uniq:
13        if col in items:
14            tmp_dict_result[col] = 1 
15    dict_results.append(tmp_dict_result)
16
17pd.DataFrame.from_dict(dict_results)