わからない、ではないのですが、アドバイスいただきたくこちらに投稿致しました。
<頂きたいアドバイス>
機械学習でワインのレビュースコアを予測したいと考えています。
しかし、使う予定のcsvファイルの各コラムに大量の種類のvalueがあり、それぞれ数値化するためにreplaceすると、膨大な時間がかかってしまいます。
どのようにデータのクリーニングをすればよろしいでしょうか?
自分だったらこうする、というアドバイスを頂きたいです。
今回クリーニングしたい各国のワインの評価がまとめられたCSVファイルのhead(3)です。
全体のshapeは(129971, 9)です。
例えば、Varietyを見てみると
Pinot Noir 13272
Chardonnay 11753
Cabernet Sauvignon 9472
Red Blend 8946
Bordeaux-style Red Blend 6915
Riesling 5189
Sauvignon Blanc 4967
Syrah 4142
Rosé 3564
Merlot 3102
Nebbiolo 2804
Zinfandel 2714
Sangiovese 2707
Malbec 2652
Portuguese Red 2466
White Blend 2360
Sparkling Blend 2153
Tempranillo 1810
Rhône-style Red Blend 1471
Pinot Gris 1455
Champagne Blend 1396
Cabernet Franc 1353
Grüner Veltliner 1345
Portuguese White 1159
Bordeaux-style White Blend 1066
Pinot Grigio 1052
Gamay 1025
Gewürztraminer 1012
Viognier 996
Shiraz 836
...
Diamond 1
Blauburgunder 1
Tinta Amarela 1
Doña Blanca 1
Petit Courbu 1
Riesling-Chardonnay 1
Kinali Yapincak 1
Merseguera-Sauvignon Blanc 1
Petit Meslier 1
Roditis-Moschofilero 1
Tinta Madeira 1
Tempranillo-Malbec 1
Chardonel 1
Forcallà 1
Aidani 1
Biancolella 1
Meseguera 1
Irsai Oliver 1
Sideritis 1
Pinot Blanc-Pinot Noir 1
Paralleda 1
Tempranillo-Tannat 1
Garnacha-Cariñena 1
Torontel 1
Colorino 1
Valvin Muscat 1
Ojaleshi 1
Ryzlink Rýnský 1
Gamza 1
Schwartzriesling 1
Name: variety, Length: 707, dtype: int64
707個もvalueがあります。
これをreplaceで全て数値化するのか、
また、ワインに詳しくないこともあり、どのように数値化すればいいかも悩みどころです。
元ファイルはこちらにあります。
https://www.kaggle.com/zynicide/wine-reviews
ーーーーーー
追記で質問させてください。
descriptionコラムをクラシフィケーションしたいのですが、
それぞれの値を(0,1)の数値に分けるのにオススメの方法はありますでしょうか?
自然言語、でググってみましたが、どのようにやるか、までは書かれていなかったので、もし情報などありましたらシェアいただけると幸いです。
他のコラムに関しては(0,1)の数値に分けることは既に完了しました。アドバイスありがとうございました。
ご教示お願い致します。
回答4件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/01/21 04:07