Pandasを用いて、日付をもとにした集計を行いたい

Pandasを用いて、日付をもとにした集計を行いたいです。

例えば、以下のような表があったとします。

csv
1   date       value
20: 20211010   "A", "B", "C"
31: 20211011   "A", "C"
42: 20211012   "D", "E", "F"

出力したい形式としては、

csv
1   date      "A" "B" "C" "D" "E" "F"
20: 20211010   1   1   1   0   0   0
31: 20211011   1   0   1   0   0   0
42: 20211012   0   0   0   1   1   1

ポイントとしては、各列の値の出現頻度、列は文字の種類数の分の行列を作りたいです。

特に、文字の種類数の分の列を作るのに苦戦しており、良いアイデアがあれば教えていただきたいです。

行動規範の内容に同意します

回答2件

ベストアンサー

ポイントとなる部分にはpandas.get_dummiesが使えます。

Python
1import pandas as pd
2
3df = pd.DataFrame({'date':[10,11,12], 'value':[list('ABC'),list('AC'),list('DEF')]})
4print(df)
5#   date      value
6#0    10  [A, B, C]
7#1    11     [A, C]
8#2    12  [D, E, F]
9
10# valueをばらしてOneHot化して再グループ化
11df = df.explode('value').reset_index(drop=True)
12df = pd.get_dummies(df, columns=['value'], prefix='', prefix_sep='')
13df = df.groupby(['date'], as_index=False).sum()
14print(df)
15#   date  A  B  C  D  E  F
16#0    10  1  1  1  0  0  0
17#1    11  1  0  1  0  0  0
18#2    12  0  0  0  1  1  1

投稿2021/10/19 08:59

8524ba23

総合スコア38341

ren990902

2021/10/19 12:19

ありがとうございます。試してみます。

行動規範の内容に同意します

元のDataFrameの形がきれいではないので、前処理をしてdf2の形に整形します。
print(df)

python
1>>> print(df)
2       date          value
30  20211010  "A", "B", "C"
41  20211011       "A", "C"
52  20211012  "D", "E", "F"
6>>>
7>>> slist = []
8>>> for i, row in df.iterrows():
9...     for v in row['value'].split(', '):
10...         s = row.copy()
11...         s['value'] = v
12...         slist.append(s)
13...
14>>> df2 = pd.concat(slist, axis=1).T.reset_index(drop=True)
15>>> print(df2)
16       date value
170  20211010   "A"
181  20211010   "B"
192  20211010   "C"
203  20211011   "A"
214  20211011   "C"
225  20211012   "D"
236  20211012   "E"
247  20211012   "F"

df2に対してget_dummiesを使って0か1の列にします。

python
1>>> df3 = pd.get_dummies(df2, columns=['value'],prefix='', prefix_sep='')
2>>> print(df3)
3       date  "A"  "B"  "C"  "D"  "E"  "F"
40  20211010    1    0    0    0    0    0
51  20211010    0    1    0    0    0    0
62  20211010    0    0    1    0    0    0
73  20211011    1    0    0    0    0    0
84  20211011    0    0    1    0    0    0
95  20211012    0    0    0    1    0    0
106  20211012    0    0    0    0    1    0
117  20211012    0    0    0    0    0    1

df3に対してgroupbyを使って日付付けごとの合計を取ります。

python
1>>> df4 = df3.groupby('date').sum().reset_index()
2>>> print(df4)
3       date  "A"  "B"  "C"  "D"  "E"  "F"
40  20211010    1    1    1    0    0    0
51  20211011    1    0    1    0    0    0
62  20211012    0    0    0    1    1    1