#やりたいこと Kaggleで以下の問題に取り組んでいます。 https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python/comments 機械学習にデータを投げるためにデータフレームをダミーデータに変換しました。そして、学習機に投げたはいいものの、テストデータをダミーデータに変換した際に、列数が合わなくなってしまいテストを行うことができません。そこで、二つのデータフレームを比較し、テストにない列を追加し、0で埋めるようにしたいです。以下、該当コードになります。 ```python import pandas as pd df_train = pd.read_csv('./train.csv') df_train = pd.get_dummies(df_train) #column:221 X_train = df_train.drop('SalePrice', axis=1) Y_train = df_train['SalePrice'] from sklearn import linear_model clf_er= linear_model.ElasticNet(alpha=1.0, l1_ratio=0.5) clf_er.fit(X_train, Y_train) df_test = pd.read_csv('./test.csv') df_test = pd.get_dummies(df_test) #column:206 ``` 今回はあるデータを全て数値化して学習させようとしていますが、高性能な学習機を作成する際に、説明変数は目的変数との相関が高いものを5や6個厳選して学習させた方がいいのでしょうか? 今回のデータ数は1500個ぐらいです。

pandas で二つの DF を比較して足りない column を補完したい

#やりたいこと
Kaggleで以下の問題に取り組んでいます。
https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python/comments

機械学習にデータを投げるためにデータフレームをダミーデータに変換しました。そして、学習機に投げたはいいものの、テストデータをダミーデータに変換した際に、列数が合わなくなってしまいテストを行うことができません。そこで、二つのデータフレームを比較し、テストにない列を追加し、0で埋めるようにしたいです。

以下、該当コードになります。

python
1import pandas as pd
2df_train = pd.read_csv('./train.csv')
3df_train = pd.get_dummies(df_train)
4#column:221
5
6X_train  = df_train.drop('SalePrice', axis=1)
7Y_train  = df_train['SalePrice']
8
9from sklearn import linear_model
10clf_er= linear_model.ElasticNet(alpha=1.0, l1_ratio=0.5)
11clf_er.fit(X_train, Y_train)
12
13df_test = pd.read_csv('./test.csv')
14df_test = pd.get_dummies(df_test)
15#column:206