質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

616閲覧

onehot encoding error

退会済みユーザー

退会済みユーザー

総合スコア0

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2019/07/07 02:41

onehot encoding
を行うとエラーが出ます。
欠損値を埋めた状態でやるとエラーが出てしまいます。
どなたか教えて頂けると幸いです。

下記はエラーが出ないで正常に動作します。

python

1# onehot encoding 2onehot = [] 3for name, type in zip(df.columns, df.dtypes): 4 if type == 'object': 5 onehot.append(name) 6 7df = pd.get_dummies(df, prefix=onehot) 8dftest = pd.get_dummies(dftest, prefix=onehot)

python

1df = df.fillna(value='somevalue') 2dftest = dftest.fillna(value='somevalue') 3 4# onehot encoding 5onehot = [] 6for name, type in zip(df.columns, df.dtypes): 7 if type == 'object': 8 onehot.append(name) 9 10df = pd.get_dummies(df, prefix=onehot) 11dftest = pd.get_dummies(dftest, prefix=onehot)

error

1--------------------------------------------------------------------------- 2ValueError Traceback (most recent call last) 3<ipython-input-4-5234f2d09ea7> in <module>() 4 5 5 6 df = pd.get_dummies(df, prefix=onehot) 6----> 7 dftest = pd.get_dummies(dftest, prefix=onehot) 7 8 8 9 print(df.shape) 9 101 frames 11/usr/local/lib/python3.6/dist-packages/pandas/core/reshape/reshape.py in check_len(item, name) 12 821 len_msg = len_msg.format(name=name, len_item=len(item), 13 822 len_enc=data_to_encode.shape[1]) 14--> 823 raise ValueError(len_msg) 15 824 16 825 check_len(prefix, 'prefix') 17 18ValueError: Length of 'prefix' (123) did not match the length of the columns being encoded (122).

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

dfdftestでnanの出現状況が異なるなどの原因で、列数が変わるのではないでしょうか。

また、機械学習で使うために、学習データと訓練データで統一された条件下でonehot encodingを行いたい場合は、scikit-learnをもちいた方が便利です。

sklearn.preprocessing.OneHotEncoder — scikit-learn 0.21.2 documentation

投稿2019/07/07 02:59

hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2019/07/07 03:16

欠損値を補完しても列数が変わってはいませんでした。 dfとdftest共に列数とカラム名は同じなので困っています。
hayataka2049

2019/07/07 03:25

目的変数の分だけ多いとかは?
退会済みユーザー

退会済みユーザー

2019/07/07 03:27

目的変数は除外してます。
hayataka2049

2019/07/07 04:23

わかりました。状況を再現できるデータを頂ければ、こちらで検証します。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問