質問編集履歴

表現変更

2022/09/07 05:20

投稿

norinori55

スコア0

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,12 +1,19 @@
-あるサイトでcategory_mappingの対応表を作るのコードを参考にさせていただいておりますが、
+あるサイトでcategory_mappingで数値変換対応表を作るコードを参考にしておりますが、
 「cannot unpack non-iterable int object」というエラーが出てしまいます。
 エラー文を検索してもいいヒントが見つからず困っています。
-カテゴリデータをOrdinal Encoderで数値化して変換データの対応表を取得したいと思っております。
+カテゴリー列をOrdinal Encoderで数値変換した対応表を作成したいと思っております。
 他にいい方法があれば、この方法にこだわっている訳ではありません。
+colの出力が
+{'col': '出身校', 'mapping': 大阪大学       1
+神戸大学           2
+岡山大学           3
+山口大学           4
+徳島大学           5
+となっており、mapping列にある「〇〇大学」と「数字」を別々の変数（label、ord_um）に
-下記が関係するところのコードになります。
+格納して表示させたいのですが、この記述だと入れられないという事です。
-問題は一番下の列群です。
 アドバイスいただけますと幸いです。
 ```ここに言語を入力
@@ -17,6 +24,7 @@
 df[categorical_cols] = ce_oe.fit_transform(df[categorical_cols])
 #変換項目の対応表を作成（ここの記述に関してのご相談です）
 def get_ordinal_mapping(encoding_instance):
 　map_list = []
     for col in ce_oe.category_mapping:

scikit-learn Python 3.x

問題点に絞りました

2022/09/06 10:24

投稿

norinori55

スコア0

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,75 +1,47 @@
-あるサイトでcategory_mappingの対応表を作るのコードを参考にさせていただいておりますが、下記エラーが出てしまいます。
+あるサイトでcategory_mappingの対応表を作るのコードを参考にさせていただいておりますが、
+「cannot unpack non-iterable int object」というエラーが出てしまいます。
+エラー文を検索してもいいヒントが見つからず困っています。
----------------------------------------------------------------------------
-TypeError                                 Traceback (most recent call last)
-~\AppData\Local\Temp/ipykernel_7788/3970629349.py in <module>
-----> 1 get_ordinal_mapping(ce_oe)
-~\AppData\Local\Temp/ipykernel_7788/2653423329.py in get_ordinal_mapping(encoding_instance)
-     48     map_list = []
-     49     for column in encoding_instance.category_mapping:
----> 50         for (label, ord_num) in column['mapping']:
-     51             map_list.append([column['col'], label, ord_num])
-     52     map_df = pd.DataFrame(map_list, columns=['column', 'label', 'ord_num'])
-TypeError: cannot unpack non-iterable int object
----------------------------------------------------------------------------
-データトリートメントの途中ですが、GBDTをする際の特徴量を数値データとカテゴリデータに分けて、カテゴリデータをOrdinal Encoderで数値化して予測結果を元に戻すために変換した数値と元のデータの対応表を取得しておきたいと思っております。
+カテゴリデータをOrdinal Encoderで数値化して変換データの対応表を取得したいと思っております。
 他にいい方法があれば、この方法にこだわっている訳ではありません。
-カテゴリ項目の数値化は何十項目もあるのですが、一列を取ってみると下記の様になっており、変数の数は間違っていない様のですが、色々試してみた結果、mappingが二列データを持っているのを上手に記述できていない感じです。
-初心者で応用力が無いので対応できませんでした。
-{'col': '出身校',
- 'mapping': 〇〇大学       1
- 〇〇大学           2
- 〇〇大学           3
-               ..
- その他大学         85
- NaN           -2
- Length: 89, dtype: int64,
- 'data_type': dtype('O')}
 下記が関係するところのコードになります。
 問題は一番下の列群です。
 アドバイスいただけますと幸いです。
 ```ここに言語を入力
+df = pd.read_csv(url)
 useful_features = [c for c in df.columns if c not in (id)]
-    #文字変数と数値変数の振り分け
 categorical_cols = [c for c in useful_features if df[c].dtype == 'object']
-numerical_cols = [c for c in useful_features if df[c].dtype in ['int64', 'float64']]
-    #標準化したくない数値項目を選択
-numerical_features = numerical_cols
-remove_numerical_features = 'graduate', 'Year'
-for remove_numerical_feature in remove_numerical_features:
-    numerical_features.remove(remove_numerical_feature)
-    #特徴量の比率をそろえるために数値の標準化
-scaler = StandardScaler()
-df[numerical_cols] = scaler.fit_transform(df[numerical_cols])
-    # カテゴリ値変換
 ce_oe = ce.OrdinalEncoder(cols=categorical_cols,handle_unknown='impute')
 df[categorical_cols] = ce_oe.fit_transform(df[categorical_cols])
-    #値を1の始まりから0の始まりにする（LGB用）
-for i in categorical_cols:
-    df[categorical_cols][i] = df[categorical_cols][i] - 1
-   # カテゴリ項目から外す特徴量
-categorical_features = categorical_cols
-remove_categorical_features = reserch_column,'target',
-for remove_categorical_feature in remove_categorical_features:
-categorical_features.remove(remove_categorical_feature)
-    #変換項目の対応表を作成（ここの記述に関してのご相談です）
+#変換項目の対応表を作成（ここの記述に関してのご相談です）
 def get_ordinal_mapping(encoding_instance):
-    map_list = []
+　map_list = []
-    for column in encoding_instance.category_mapping:
+    for col in ce_oe.category_mapping:
-        for (label, ord_num) in column['mapping']:
+        for (label, ord_num) in col['mapping']:
-            map_list.append([column['col'], label, ord_num])
+            map_list.append([col['col'], label, ord_num])
     map_df = pd.DataFrame(map_list, columns=['column', 'label', 'ord_num'])
     return map_df
 get_ordinal_mapping(ce_oe)
+```
+---------------------------------------------------------------------------
+TypeError                                 Traceback (most recent call last)
+~\AppData\Local\Temp\4/ipykernel_55428/1328553831.py in <module>
+     46 # map_df = pd.DataFrame(map_list, columns=['column', 'label', 'ord_num'])
-```
+     47
+---> 48 get_ordinal_mapping(ce_oe)
+     49
+     50 # ce_oe_map = ce_oe.category_mapping
+~\AppData\Local\Temp\4/ipykernel_55428/1328553831.py in get_ordinal_mapping(encoding_instance)
+     34     map_list = []
+     35     for col in ce_oe.category_mapping:
+---> 36         for (label, ord_num) in col['mapping']:
+     37             map_list.append([col['col'], label, ord_num])
+     38     map_df = pd.DataFrame(map_list, columns=['column', 'label', 'ord_num'])
+TypeError: cannot unpack non-iterable int object

scikit-learn Python 3.x

記述修正です。

2022/03/01 09:59

投稿

norinori55

スコア0

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -55,13 +55,13 @@
     #値を1の始まりから0の始まりにする（LGB用）
 for i in categorical_cols:
     df[categorical_cols][i] = df[categorical_cols][i] - 1
-   # 数値項目から外す特徴量
+   # カテゴリ項目から外す特徴量
+categorical_features = categorical_cols
-remove_numerical_features = reserch_column,'target',
+remove_categorical_features = reserch_column,'target',
-for remove_numerical_feature in remove_numerical_features:
+for remove_categorical_feature in remove_categorical_features:
-categorical_features.remove(remove_numerical_feature)
+categorical_features.remove(remove_categorical_feature)
     #変換項目の対応表を作成（ここの記述に関してのご相談です）
-categorical_features = categorical_cols
 def get_ordinal_mapping(encoding_instance):
     map_list = []
     for column in encoding_instance.category_mapping:

scikit-learn Python 3.x

記述が間違っていましたので修正しました。

2022/03/01 09:51

投稿

norinori55

スコア0

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -55,14 +55,13 @@
     #値を1の始まりから0の始まりにする（LGB用）
 for i in categorical_cols:
     df[categorical_cols][i] = df[categorical_cols][i] - 1
-   # カテゴリ項目から外す特徴量
+   # 数値項目から外す特徴量
-categorical_features = categorical_cols
 remove_numerical_features = reserch_column,'target',
 for remove_numerical_feature in remove_numerical_features:
 categorical_features.remove(remove_numerical_feature)
     #変換項目の対応表を作成（ここの記述に関してのご相談です）
+categorical_features = categorical_cols
 def get_ordinal_mapping(encoding_instance):
     map_list = []
     for column in encoding_instance.category_mapping:

scikit-learn Python 3.x