リスト型のデータカラムを機械学習モデルに学習させたい

前提・実現したいこと

以下のようなcsvファイルがあり(5万行)、特徴量elementをモデルに学習させてミックスジュースの値段を予測する回帰モデルをpythonで作成したいと思っています。

No, element, price
1, "{banana, ""orange"", ""apple"", grape, peach}", 200
2, "{""orange"", grape, peach}", 180
・
・
50000, "{""orange"", ""apple""}", 100
（どういう意味があるのか不明ですが、リスト内の特定のワードが「""」で囲まれています）

リスト内のbananaや""orange""をそれぞれダミー変数化しようかと考えたのですが、いろいろ調べてもやり方が分かりませんでした。
上記の方法に限らず、このようなリスト型のカラムを特徴量として活用する方法をご存知の方がいらっしゃいましたら、アドバイスいただけますと幸いです。

試したこと

当然ですがそのままget_dummies()するとリスト全体が一つのダミー変数として処理されてしまいました。

python3
1fruits = pd.get_dummies(fruits)
2fruits.head()
3
4No	element_{"orange", grape,peach}	element_{"orange","apple"}	element_{banana,"orange","apple",grape, peach}
51	0	0	1
62	1	0	0
73	0	1	0

meg_

2021/08/04 11:30 編集

カンマの後ろに空白がありますが、実際のデータにも存在しているのでしょうか？

massan3

2021/08/04 11:37

すみません、実際のcsvデータには空白はありません。見やすいようにと思って投稿時に空白を入れたのですが、余計な事をしてしまったかもしれません。

toast-uz

2021/08/04 11:38

テキストファイルとして１行ずつ読み込んで、パーサーをスクラッチで記述するのが早いと思います。なお、原材料が10種類あったとしてもミックスジュースの種類は高々約1000通りしかありません。同じ組み合わせなら同じ価格なのであれば、5万も教師データがあれば、機械学習は使わなくても価格は決定できるかもしれません。

meg_

2021/08/04 12:28

> リスト内のbananaや""orange""をそれぞれダミー変数化しようかと考えたのですが「ダミー変数化」後のイメージはどのようなものでしょうか？　つまり、ダミー変数化前のデータフレームはどんな形でしょうか？

massan3

2021/08/04 12:43

toast-uzさん、ありがとうございます。実は投稿した課題は、取り組んでいる課題を簡易的にアレンジしたものです（手元のデータが公開禁止のため）。その旨記述するべきでした。実際のデータは説明変数が30近くあり、その中にリスト型のカラムが混じっているという構造です。誤解を与えるような記述をしてしまい申し訳ありません。ご提案いただいた手法は調べて試してみます。

行動規範の内容に同意します

回答1件

求めているものか分かりませんが下記で"{}"内のデータを列に展開出来ます。

Python
1# データ
2'''No,element,price
31,"{banana, ""orange"", ""apple"", grape, peach}",200
42,"{""orange"", grape, peach}",180
550000,"{""orange"", ""apple""}",100
6'''
7
8print(df)
9#	No	element	price
10#0	1	{banana, "orange", "apple", grape, peach}	200
11#1	2	{"orange", grape, peach}	180
12#2	50000	{"orange", "apple"}	100
13
14df['element'] = df['element'].str[1:-1].str.replace('"', '').str.split(',')
15df = pd.concat([df, df['element'].apply(pd.Series)], axis=1)
16print(df)
17#	No	element	price	0	1	2	3	4
18#0	1	[banana, orange, apple, grape, peach]	200	banana	orange	apple	grape	peach
19#1	2	[orange, grape, peach]	180	orange	grape	peach	NaN	NaN
20#2	50000	[orange, apple]	100	orange	apple	NaN	NaN	NaN

投稿2021/08/04 12:47

meg_

総合スコア10760

massan3

2021/08/04 12:58

meg_さん、ありがとうございます。回答が追い付かず申し訳ありません。ダミー変数化後のイメージは漠然とですが、例えば{banana,""orange""}の要素の行であればelement_bananaやelement_""orange""のカラムを生成して0 or 1が入る、というような事を想像していました。プログラミング初心者なもので、頓珍漢な事を申していたら恐縮です。ご提案いただいた手法で一度試してみます。