質問編集履歴

一部読みやすく修正

2018/02/02 10:18

投稿

A.Kobayashi

スコア13

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -2,6 +2,8 @@
 KaggleのTitanicにおいて、RandomForest、XGBoosting、LightGBMで特徴量の重要度を算出し比較を行ってみたのですが、結果の解釈をどのようにすればいいか悩んでいます。
 ### 発生している問題・エラーメッセージ
+下記のように精度的にはXGBoostingとLightGBMのBoostingを用いた手法が若干勝り、Boosting両手法における重要度も近しい値となっているのですが、一方でTitanicでは重要な項目とされる性別の重要度が異常に低く、重要度に関してはRandomForestのほうが納得がいく結果になっているのですが、RandomForestとBoostingにおける特徴量の重要度はそこまで異なるものなのでしょうか？
 RandomForest
 f1 core:0.833
@@ -38,8 +40,6 @@
 Cabin	2.3
 Embarked	2.6
-上記のように精度的にはXGBoostingとLightGBMのBoostingを用いた手法が若干勝り、Boosting両手法における重要度も近しい値となっているのですが、一方でTitanicでは重要な項目とされる性別の重要度が異常に低く、重要度に関してはRandomForestのほうが納得がいく結果になっているのですが、RandomForestとBoostingにおける特徴量の重要度はそこまで異なるものなのでしょうか？
 ```ここに言語を入力
 ### 該当のソースコード
@@ -53,9 +53,8 @@
 import xgboost as xgb
 import lightgbm as lgb
+# トレーニングデータ作成
 df = pd.read_csv("train.csv")
-# パラメーターの変動値を取ってくる
 X_train = df.drop(["y"],axis=1)
 y_train = df.y
@@ -100,7 +99,7 @@
     'scale_pos_weight':[1],
     'seed':[0]
 }
+# グリッドサーチで学習
 xgb = GridSearchCV(xgb.XGBClassifier(
     silent=True, booster='gbtree', reg_alpha=0, reg_lambda=1, base_score=0.5, random_state=0, missing=None),
     xgb_param, scoring=f1_scoring, cv=4)
@@ -126,7 +125,7 @@
     'verbose':[-1],
     'num_leaves':[80]
 }
+# グリッドサーチで学習
 gbm = GridSearchCV(lgb.LGBMClassifier(),gbm_param, scoring=f1_scoring, cv=5)
 gbm.fit(X_train, y_train)
 print('Best parameters: {}'.format(gbm.best_params_))
@@ -148,4 +147,5 @@
 lightgbm==2.1.0
 xgboost==0.7
 返信は月曜まで遅れるかもしれません、ご容赦お願いします。
-コードも修正点などあれば指摘しても
+コードについても修正点などあれば指摘してもらえれば幸いです。
+よろしくお願いいたします。