すみません、以下誤りが発覚しまして解決しました。
削除リクエストが却下されてしまい残ってしまいました
lightGBMを使用してmodelの作成・学習の後に、columns(説明変数に相当)のimportanceを出し、そのimportanceが高い順に元のdataを並び替えることを試みました。
元のdata(dataframe形式) X_train(10000行×350列)、y_train(10000行)を用いてlightGBMで学習させ、その学習させたmodelを"gbm"と名付けました。
その後、fiというdataframeにX_trainのcolumnsを入れたfeature_name、importanceを入れた"importance"、というcolumnsを作成しました。
python
1print(len(X_train.shape)) #(10000,350)⭐️ 2print(len(y_train.shape)) #(10000,) 3 4fi = pd.DataFrame() 5fi['importance'] = gbm.feature_importance(importance_type='gain') 6fi['feature'] = gbm.feature_name() 7 8# fiのimportanceの高い順による並び替え 9fi = fi.sort_values(by="importance"),ascending=False) 10 11# fi_newにfi["feature"]を格納 12fi_new = fi["feature"] 13 14# 確認 15print(len(fi_new)) # 350⭐️ 16 17# X_trainをcolumnのimportance順に並び替え(fi_newを用いて) 18X_train_new = X_train[fi_new] 19 20# 確認 21print(len(X_train_new)) # 470⭐️ 22
本来ならcolumnのimportance順に並び替えたX_train_newのcolumns数も元と同じ350であるべきの所、なぜかcolumn数が増えてしまいました。
print(len(X_train_new.columns.unique()))で確認した所、元と同じ350が出てきており、どうやら重複したcolumnsが作成されていた様です。
原因がはっきりしません、お分かりになる方がいましたらご教授いただけますと幸いです。
(PS.元データがあげられないものになっており、参照できずすみません。)
あなたの回答
tips
プレビュー