編集履歴

質問編集履歴

コードの追加、実験条件の追加

2020/01/17 04:41

投稿

melo_yuya

スコア16

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,8 +1,8 @@
 ニューラルネットワークによるクラス分類を行いました。評価方法はホールドアウト検証、交差検証、層化k分割交差検証の3種類で行いました。
-7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。```Python
+7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。
+```Python
 import pandas as pd
@@ -16,8 +16,6 @@
-#csvファイルの読み込み
 df = pd.read_csv('sasa_2019.csv',
                  encoding = "shift-jis",
@@ -27,8 +25,6 @@
                  names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
-#使わない列の削除
 sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
@@ -42,13 +38,9 @@
-#教師データとテストデータの分割
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
-#標準化
 scaler = preprocessing.StandardScaler()
@@ -108,8 +100,6 @@
-#csvファイルの読み込み
 df = pd.read_csv('sasa_2019.csv',
                  encoding = "shift-jis",
@@ -119,8 +109,6 @@
                  names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
-#使わない列の削除
 sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
@@ -134,13 +122,9 @@
-#教師データとテストデータの分割
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
-#標準化
 scaler = preprocessing.StandardScaler()
@@ -152,23 +136,17 @@
-#ニューラルネットワークによる分類
 clf = MLPClassifier(hidden_layer_sizes=(100,100),max_iter=1000)
 clf.fit(X_train, y_train)
-#交差検証の結果
 score = cross_val_score(clf,X,y,cv=5)
 print("Cross -Validation score:{}".format(score))
-#層化K分割交差検証の結果
 kfold = KFold(n_splits=5)
@@ -178,8 +156,6 @@
-#正解率の表示の結果
 print ("正解率=",clf.score(X_test, y_test))
 ```

コードの記入、実験条件の追加

2020/01/17 04:41

投稿

melo_yuya

スコア16

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,11 +1,185 @@
 ニューラルネットワークによるクラス分類を行いました。評価方法はホールドアウト検証、交差検証、層化k分割交差検証の3種類で行いました。
-7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。
+7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。```Python
-最適なパラメータをを用いてクラス分類を行ったところ、分類精度はホールドアウト検証の方が交差検証・層化k分割交差検証よりも0.1ほど良い結果が得られました。
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn import preprocessing
+from sklearn.neural_network import MLPClassifier
+from sklearn.model_selection import GridSearchCV
+#csvファイルの読み込み
+df = pd.read_csv('sasa_2019.csv',
+                 encoding = "shift-jis",
+                 skiprows = 1,
+                 names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
+#使わない列の削除
+sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
+sasa = sasa.dropna(how='any')
+X=sasa.loc[:,["A_avg",'0404N','0504N','0511N','00524N','1001N','1028N','1117N','0409N','0416N','0516N','0625N','1102N','1115N']]
+y=sasa['rorn']
+#教師データとテストデータの分割
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
+#標準化
+scaler = preprocessing.StandardScaler()
+scaler.fit(X_train)
+X_train = scaler.transform(X_train)
+X_test = scaler.transform(X_test)
+param_grid = {'hidden_layer_sizes': [(100,100),(10,10),(100,),(10,)],
+              'max_iter': [10000,1000,100,10]}
+grid_search = GridSearchCV(MLPClassifier(random_state=0), param_grid, cv=5)
+grid_search.fit(X_train, y_train)
+print("P.260~")
+print("Test set score: {:.2f}".format(grid_search.score(X_test, y_test)))
+print("Best parameters: {}".format(grid_search.best_params_))
+print("Best cross-validation score: {:.2f}".format(grid_search.best_score_))
+print("Best estimator:\n{}".format(grid_search.best_estimator_))
+```
+上記のコードで求められた最適なパラメータをを用いてクラス分類を行ったところ、分類精度はホールドアウト検証の方が交差検証・層化k分割交差検証よりも0.1ほど良い結果が得られました。
 これはニューラルネットワークの特徴か何かが要因となっているのでしょうか？
+以下が各評価方法の結果を出力したコードになります。
+```Python
+import pandas as pd
+from sklearn.model_selection import train_test_split
+from sklearn import preprocessing
+from sklearn.neural_network import MLPClassifier
+from sklearn.model_selection import cross_val_score
+from sklearn.model_selection import KFold
+#csvファイルの読み込み
+df = pd.read_csv('sasa_2019.csv',
+                 encoding = "shift-jis",
+                 skiprows = 1,
+                 names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
+#使わない列の削除
+sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
+sasa = sasa.dropna(how='any')
+X=sasa.loc[:,["A_avg","0504N","1117N"]]
+y=sasa['rorn']
+#教師データとテストデータの分割
+X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
+#標準化
+scaler = preprocessing.StandardScaler()
+scaler.fit(X_train)
+X_train = scaler.transform(X_train)
+X_test = scaler.transform(X_test)
+#ニューラルネットワークによる分類
+clf = MLPClassifier(hidden_layer_sizes=(100,100),max_iter=1000)
+clf.fit(X_train, y_train)
+#交差検証の結果
+score = cross_val_score(clf,X,y,cv=5)
+print("Cross -Validation score:{}".format(score))
+#層化K分割交差検証の結果
+kfold = KFold(n_splits=5)
+print("Cross-Validation scoreK:\n{}".format(
+        cross_val_score(clf,X,y,cv=kfold)))
+#正解率の表示の結果
+print ("正解率=",clf.score(X_test, y_test))
+```