dfの1列にカンマ区切りで入ってる値をカウントして列として追加する方法

Question

##やりたいこと
![イメージ説明](46e4aa436b4fef8c06b6eace0989487f.png)
A列のようなデータの入り方をしている列があり、ここにはカンマ区切りでいくつかのデータが入っています。
このA列に含まれることになるデータはリストが存在しており、このリストは増えたり減ったりする可能性があります。
![イメージ説明](d2b53bce72982ef47b7e7a1ba1c2bdf3.png)
①リストのデータを転置して、データ一覧の横に並べて列にする
②データ一覧の中身について、B列の列名と一致するものがいくつあるか数えて、B列のその行に数値を格納
（②の処理をB~最後の列まで実行）

##やってみたこと
```Python
df2 = pd.DataFrame(columns=item_list)
df3 = pd.concat([df1,df2])
for i in range(len(df)):
  for c in (df3[item_list]):
    arr = df1.loc[i,'データ一覧']
    n = arr.count(c)
    df3.loc[i,c] = n
```
### 困っていること
「あお1」と「あお」など部分一致してしまう値が存在しているからなのか、データ一覧に「あお1」がある場合、「あお」と「あお1」の両方に1とカウントされて入ってしまっているデータがあります。
完全一致の値のみを取り出してカウントするにはどのようにしたらよいでしょうか？

Accepted Answer

```python
import pandas as pd
import re

item_list = [
  'あお', 'あか', 'きいろ', 'もも', 'あお2', 'もも1'
]

df = pd.DataFrame({
  'データ一覧': [
    'あお', 'あか,きいろ', 'あお,もも1', 'きいろ,あお2',
    'もも1,あか,あお2', 'きいろ,きいろ,あお2',
  ],
})

df[item_list] = [
  [
    re.subn(fr'(^|(?<=,))\s*{p}\s*(?=(,|$))', '', df.loc[r, 'データ一覧'])[1]
    for p in item_list
  ]
  for r in range(len(df))
]

pd.set_option('display.unicode.east_asian_width', True)
print(df)

#
            データ一覧  あお  あか  きいろ  もも  あお2  もも1
0                 あお     1     0       0     0      0      0
1          あか,きいろ     0     1       1     0      0      0
2           あお,もも1     1     0       0     0      0      1
3         きいろ,あお2     0     0       1     0      1      0
4     もも1,あか,あお2     0     1       0     0      1      1
5  きいろ,きいろ,あお2     0     0       2     0      1      0
```

Answer

行や列の順番が変わって良いなら以下です。

```python
>>> print(df)
            データ一覧
0                 あお
1          あか,きいろ
2           あお,もも1
3         きいろ,あお2
4     もも1,あか,あお2
5  きいろ,きいろ,あお2
>>> df['データ'] = df['データ一覧'].apply(lambda s: s.split(','))
>>> pd.get_dummies(df.explode('データ'), columns=['データ'], prefix='', prefix_sep='').groupby('データ一覧').sum().reset_index()
            データ一覧  あお  あお2  あか  きいろ  もも1
0                 あお     1      0     0       0      0
1           あお,もも1     1      0     0       0      1
2          あか,きいろ     0      0     1       1      0
3         きいろ,あお2     0      1     0       1      0
4  きいろ,きいろ,あお2     0      1     0       2      0
5     もも1,あか,あお2     0      1     1       0      1
```

Answer

とりあえず以下のようなコードで最初のデータのみで欲しい結果は得られます。
もし次に提示されたリストに含まれる列のみ欲しければ、その列だけ抽出すればよいです。
参考：[Pandas convert a column of list to dummies](https://stackoverflow.com/questions/29034928/pandas-convert-a-column-of-list-to-dummies)
```Python
data = [['Blue'],['Red','Yellow'],['Blue','Pink1'],['Yellow','Blue2'],['Pink1','Red','Blue2'],['Yellow','Yellow','Blue2']]
df2 = pd.DataFrame({'data_list':data})
df3 = pd.get_dummies(df2['data_list'].apply(pd.Series).stack()).sum(level=0)
df = pd.concat([df2,df3], axis=1)
print(df)
"""
                 data_list  Blue  Blue2  Pink1  Red  Yellow
0                   [Blue]     1      0      0    0       0
1            [Red, Yellow]     0      0      0    1       1
2            [Blue, Pink1]     1      0      1    0       0
3          [Yellow, Blue2]     0      1      0    0       1
4      [Pink1, Red, Blue2]     0      1      1    1       0
5  [Yellow, Yellow, Blue2]     0      1      0    0       2
"""
```

困っていること

関連した質問