CSVファイルにある質的データをダ三ー変数に変えたつもりがエラーになります。

前提・実現したいこと

機械学習（深層学習）をしようと思って、30列あるCSVファイルを学習用と検証用に分け、Pandasで、ある列に存在する質的データをonehot表現に変更したつもりだったのですが、なぜかエラーが出てしまいました。

発生している問題・エラーメッセージ

could not convert string to float

該当のソースコード




#学習用データのラベルを決める。
train = pd.read_csv("train.csv", encoding = "utf-8"
                    ,sep = ",", header = None)

X_train = train[[1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
                 , 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]]

y_train = train[6]


#検証用データのラベルを決める。
test = pd.read_csv("test.csv" , encoding = "utf-8"
                   ,sep =",", header = None)

X_test = test[[1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17
               ,18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29]]

y_test  = test[6]



#学習用データと検証用データにある質的データ(17列目,28列目,29列目)をonehot表現に。
pd.get_dummies(X_train,columns=[17])
pd.get_dummies(X_train,columns=[28])
pd.get_dummies(X_train,columns=[29])

pd.get_dummies(X_test,columns=[17])
pd.get_dummies(X_test,columns=[28])
pd.get_dummies(X_test,columns=[29])

.
.
.
.
.
.

補足

pd.get_dummiesの使い方が間違っているのですかね・・・・?

shiracamus

2020/01/12 02:06 編集

> ダ三ー変数数字の三じゃなく、カタカナのミ、ダミー変数です。

行動規範の内容に同意します

回答1件

ベストアンサー

とりあえず２点ほど書きますと、

pandas.get_dummies()関数は One hot化したDataFrameを戻り値として返しますので、リターン値を変数にいれる必要があります。
pandas.get_dummies()関数は One hot化する列を複数行指定することができますので、３行に分けて記述する必要はありません。

Python
1X_train = pd.get_dummies(X_train,columns=[17,28,29])

エラーの原因は上記 1) が行われていないため、One Hot化されていない元の文字列のデータを特徴量として使用したため発生したのではないでしょうか。

更には、One hot化するにあたり trainデータとtestデータで含まれるデータの種類に差異がある場合、trainデータとtestデータでデータの列数（特徴量の数）が違うものになる可能性がありますので注意が必要となります。

投稿2020/01/11 16:00

編集2020/01/11 16:48

magichan

総合スコア15898

Kikuji

2020/01/12 04:03

回答ありがとうごさいました！助かりました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！