編集履歴

質問編集履歴

実際のコードを書き直し

2023/05/15 12:41

投稿

BunkeiDX

スコア27

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -46,7 +46,7 @@
 import seaborn as sns
 # Loading train data
-df_train = pd.read_csv('/*****/train.csv')
+df_train = pd.read_csv('/***/train.csv')
 # Install XGBoost
 import xgboost as xgb
@@ -61,14 +61,14 @@
 # データ分割
 # df_trainをtrainとtestに分ける
 # stratifyに設定したデータが均一になるように分割
-train, test = train_test_split(df_train, test_size = 0.1, stratify = df_train["Outcome"])
+train, test = train_test_split(df_train, test_size = 0.1, stratify = df_train["target"])
 # 説明変数、目的変数を格納
-X_train = train.drop(['index','Outcome'], axis=1)
+X_train = train.drop(['id','target'], axis=1)
-y_train = train['Outcome']
+y_train = train['target']
-X_test = test.drop(['index','Outcome'], axis=1)
+X_test = test.drop(['id','target'], axis=1)
-y_test = test['Outcome']
+y_test = test['target']
 print(X_train.shape, y_train.shape)
 print(X_test.shape, y_test.shape)
@@ -116,10 +116,10 @@
 ## テストデータで実行する
 # Loading test data
-df_test = pd.read_csv('/****/test.csv')
+df_test = pd.read_csv('/***/test.csv')
 # drop 'index' and save with another name
-df_test2 = df_test.drop('index', axis=1)
+df_test2 = df_test.drop('id', axis=1)
 # データ形式の変換して、確認
 df_test3 = xgb.DMatrix(df_test2)
@@ -131,9 +131,9 @@
 # 予測結果をcsvに保存する
-sample = pd.read_csv('/****/sample_submit.csv', header=None)
+sample = pd.read_csv('/****/sample_submission.csv', header=None)
 sample[1] = pred.astype('int')
-sample.to_csv('/****/sample_submit_20230328.csv',index=None, header=None)
+sample.to_csv('/***/sample_submission_20230428.csv',index=None, header=None)
 ```

XGBoost Python

# train dataでの予測モデルをTest dataに適用すると# 予測結果をcsvに保存するを変更しました。

2023/05/12 04:05

投稿

BunkeiDX

スコア27

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -132,7 +132,7 @@
 # 予測結果をcsvに保存する
 sample = pd.read_csv('/****/sample_submit.csv', header=None)
-sample[1] = pred
+sample[1] = pred.astype('int')
 sample.to_csv('/****/sample_submit_20230328.csv',index=None, header=None)
 ```

XGBoost Python

「実際のコード」を編集しました。

2023/05/08 12:50

投稿

BunkeiDX

スコア27

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -106,8 +106,8 @@
 # XGBoostの評価
 pred = model.predict(dtest).round()
-print(pred[:5])
+print(pred) #[:5]
-print(y_test[:5])
+print(y_test) #[:5]
 # 正答率
 from sklearn.metrics import accuracy_score
@@ -121,9 +121,13 @@
 # drop 'index' and save with another name
 df_test2 = df_test.drop('index', axis=1)
+# データ形式の変換して、確認
+df_test3 = xgb.DMatrix(df_test2)
+print(type(df_test3))
 # train dataでの予測モデルをTest dataに適用する
 # 予測
-pred = model.predict(df_test2)
+pred = model.predict(df_test3).round()
 # 予測結果をcsvに保存する

XGBoost Python

csvを読み込むところから、分析を実行して、結果をテストデータに適用させて、それをcsvファイルに保存するところまでのコードを追記しました。

2023/03/28 03:43

投稿

BunkeiDX

スコア27

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -31,4 +31,105 @@
 XGBoostで回帰分析をやった時も学習用データでモデルを作って、今回と同じようにモデルをテストデータにあてはめて予測できたのですが、今回はどうしてうまく行かないのか原因がわかりません。お助け下さい。
+### 実際のコード
+csvを読み込んで、XGBoostでロジスティック回帰分析をして、モデルを得て、モデルをテストデータに適用するところまでのコードは次の通りです。
+test.csvには目的変数となる'Outcome'は与えられていません。
+```python
+# Call main libraries
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+import seaborn as sns
+# Loading train data
+df_train = pd.read_csv('/*****/train.csv')
+# Install XGBoost
+import xgboost as xgb
+# Install other libraries
+import tensorflow as tf
+from tensorflow.keras.models import Sequential
+from tensorflow.keras.layers import Activation, Dense, Dropout, Input, BatchNormalization
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import mean_squared_error
+# データ分割
+# df_trainをtrainとtestに分ける
+# stratifyに設定したデータが均一になるように分割
+train, test = train_test_split(df_train, test_size = 0.1, stratify = df_train["Outcome"])
+# 説明変数、目的変数を格納
+X_train = train.drop(['index','Outcome'], axis=1)
+y_train = train['Outcome']
+X_test = test.drop(['index','Outcome'], axis=1)
+y_test = test['Outcome']
+print(X_train.shape, y_train.shape)
+print(X_test.shape, y_test.shape)
+# データ形式の変換
+dtrain = xgb.DMatrix(X_train, y_train)
+dtest = xgb.DMatrix(X_test, y_test)
+# パラメータ設定
+# binary: 二値分類
+params = {
+    "objective": "binary:logistic",
+    "eval_metric": "logloss",
+    }
+# 履歴保存用の変数
+history = {}
+# 学習
+model = xgb.train(
+    params = params,
+    dtrain = dtrain,
+    evals = [(dtrain, "train"), (dtest, "test")],
+    evals_result = history,
+    num_boost_round = 100,
+    early_stopping_rounds = 10,
+)
+plt.plot(history["train"]["logloss"],label = "train")
+plt.plot(history["test"]["logloss"],label = "test")
+plt.legend()
+plt.xlabel('rounds')
+plt.ylabel('logloss')
+plt.show()
+# XGBoostの評価
+pred = model.predict(dtest).round()
+print(pred[:5])
+print(y_test[:5])
+# 正答率
+from sklearn.metrics import accuracy_score
+print(accuracy_score(y_test, pred))
+## テストデータで実行する
+# Loading test data
+df_test = pd.read_csv('/****/test.csv')
+# drop 'index' and save with another name
+df_test2 = df_test.drop('index', axis=1)
+# train dataでの予測モデルをTest dataに適用する
+# 予測
+pred = model.predict(df_test2)
+# 予測結果をcsvに保存する
+sample = pd.read_csv('/****/sample_submit.csv', header=None)
+sample[1] = pred
+sample.to_csv('/****/sample_submit_20230328.csv',index=None, header=None)
+```

XGBoost Python