#やりたいこと
Kaggleで以下の問題に取り組んでいます。
https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python/comments
機械学習にデータを投げるためにデータフレームをダミーデータに変換しました。そして、学習機に投げたはいいものの、テストデータをダミーデータに変換した際に、列数が合わなくなってしまいテストを行うことができません。そこで、二つのデータフレームを比較し、テストにない列を追加し、0で埋めるようにしたいです。
以下、該当コードになります。
python
1import pandas as pd 2df_train = pd.read_csv('./train.csv') 3df_train = pd.get_dummies(df_train) 4#column:221 5 6X_train = df_train.drop('SalePrice', axis=1) 7Y_train = df_train['SalePrice'] 8 9from sklearn import linear_model 10clf_er= linear_model.ElasticNet(alpha=1.0, l1_ratio=0.5) 11clf_er.fit(X_train, Y_train) 12 13df_test = pd.read_csv('./test.csv') 14df_test = pd.get_dummies(df_test) 15#column:206
今回はあるデータを全て数値化して学習させようとしていますが、高性能な学習機を作成する際に、説明変数は目的変数との相関が高いものを5や6個厳選して学習させた方がいいのでしょうか?
今回のデータ数は1500個ぐらいです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。