機械学習のDataFrameのカラム差分の埋め方

とあるDataFrameの前処理を行っています。

ダミー変数化を行った際、

trainX.shape (1721, 179)
testX.shape (313, 149)

となり差分カラムが30ありました。

解決したいこと
・30のカラムが何なのか？を一覧でしたいりたい
・30のカラムをtestXに追加し、0を挿入したい

です。

tiitoi

2019/09/10 06:11 編集

ダミー変数化は trainX, testX に分ける前に行うべきではないでしょうか最初からデータが分かれている場合は一旦結合してダミー変数化してから、再度分割すればよいかと思います。

ookawa443

2019/09/10 06:33

元データで学習用と検証用でデータありました。結合部分（indexや行番号）（表現が間違っていたらすいません）を把握しておき、また分割する。問題なければtrain_test_splitで分割処理をしてしまう。とかでしょうか？

tiitoi

2019/09/10 06:36

それでいいと思います。未加工の状態であれば、列の数は同じはずなので、pd.concat で行方向に結合してからダミー変数化し、再度 train_test_split で分割すればよいかと思います。 http://sinhrks.hatenablog.com/entry/2015/01/28/073327

ookawa443

2019/09/10 06:44

初期スタートを間違えた感じですね・・・ありがとうございます。

ookawa443

2019/09/10 06:46

コメントが「回答」でないけど大丈夫でしょうか？

tiitoi

2019/09/10 07:00

回答のほうにサンプルコードを記載しました。

行動規範の内容に同意します

回答1件

結合してからダミー変数化して、再度分割するサンプルを以下に記載しました。

コード

python
1import pandas as pd
2from sklearn.model_selection import train_test_split
3
4train = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "z"]})
5test = pd.DataFrame({"A": [1, 2, 3], "B": ["x", "y", "t"]})
6
7# 行方向で結合する。
8merged = pd.concat([train, test])
9print(merged)
10#    A  B
11# 0  1  x
12# 1  2  y
13# 2  3  z
14# 0  1  x
15# 1  2  y
16# 2  3  t
17
18# 列 B をダミー変数化
19merged = pd.get_dummies(merged, columns=["B"])
20print(merged)
21#    A  B_t  B_x  B_y  B_z
22# 0  1    0    1    0    0
23# 1  2    0    0    1    0
24# 2  3    0    0    0    1
25# 0  1    0    1    0    0
26# 1  2    0    0    1    0
27# 2  3    1    0    0    0
28
29# 学習データ、テストデータに分ける。
30train, test = train_test_split(merged, test_size=0.2)
31print(train)
32#    A  B_t  B_x  B_y  B_z
33# 2  3    0    0    0    1
34# 1  2    0    0    1    0
35# 0  1    0    1    0    0
36# 1  2    0    0    1    0
37print(test)
38#    A  B_t  B_x  B_y  B_z
39# 0  1    0    1    0    0
40# 2  3    1    0    0    0