機械学習初学者の質問です。
機械学習を始めようと思い、データセットの元となるCSVファイルの取得を完了しました。
しかし、現状ではただのデータの羅列で、どの列が答えに当たるのか、どの行を特徴量とするのかなどの加工はできていません。
この場合、皆様はどのプログラムを使用して加工されますか?
ネットで調べますと、欠損値の除去などの前処理に当たる工程は、Pandasなどがあると理解していますが、ネットでは調べきれなかった部分もあり質問しています。
データセットの加工のポイント
・特徴量同士の掛け算などの演算操作で変換した新たな特徴量を作成したい。
・例になりますが、特徴量No.1〜10の中で最大と最小の値を持つ特徴量を取り出し、最大値・最小値以外の特徴量は削除したい
・ある一定の条件に見合う特徴量を含んだデータのみのデータセットに変更したい。
・条件分けしてデータに答えのラベルを振りたい。
今後、クローリングなどでデータが日々蓄積していくことも想定されます。
VBAなどで加工するのが良いのでしょうか。
ご回答お願い致します。
回答1件
あなたの回答
tips
プレビュー