前提・実現したいこと
以下のようなcsvファイルがあり(5万行)、特徴量elementをモデルに学習させてミックスジュースの値段を予測する回帰モデルをpythonで作成したいと思っています。
No, element, price
1, "{banana, ""orange"", ""apple"", grape, peach}", 200
2, "{""orange"", grape, peach}", 180
・
・
50000, "{""orange"", ""apple""}", 100
(どういう意味があるのか不明ですが、リスト内の特定のワードが「""」で囲まれています)
リスト内のbananaや""orange""をそれぞれダミー変数化しようかと考えたのですが、いろいろ調べてもやり方が分かりませんでした。
上記の方法に限らず、このようなリスト型のカラムを特徴量として活用する方法をご存知の方がいらっしゃいましたら、アドバイスいただけますと幸いです。
試したこと
当然ですがそのままget_dummies()するとリスト全体が一つのダミー変数として処理されてしまいました。
python3
1fruits = pd.get_dummies(fruits) 2fruits.head() 3 4No element_{"orange", grape,peach} element_{"orange","apple"} element_{banana,"orange","apple",grape, peach} 51 0 0 1 62 1 0 0 73 0 1 0