質問編集履歴

2

コードの追加、実験条件の追加

2020/01/17 04:41

投稿

melo_yuya
melo_yuya

スコア16

test CHANGED
File without changes
test CHANGED
@@ -1,8 +1,8 @@
1
1
  ニューラルネットワークによるクラス分類を行いました。評価方法はホールドアウト検証、交差検証、層化k分割交差検証の3種類で行いました。
2
2
 
3
- 7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。```Python
3
+ 7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。
4
4
 
5
-
5
+ ```Python
6
6
 
7
7
  import pandas as pd
8
8
 
@@ -16,8 +16,6 @@
16
16
 
17
17
 
18
18
 
19
- #csvファイルの読み込み
20
-
21
19
  df = pd.read_csv('sasa_2019.csv',
22
20
 
23
21
  encoding = "shift-jis",
@@ -27,8 +25,6 @@
27
25
  names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
28
26
 
29
27
 
30
-
31
- #使わない列の削除
32
28
 
33
29
  sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
34
30
 
@@ -42,13 +38,9 @@
42
38
 
43
39
 
44
40
 
45
- #教師データとテストデータの分割
46
-
47
41
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
48
42
 
49
43
 
50
-
51
- #標準化
52
44
 
53
45
  scaler = preprocessing.StandardScaler()
54
46
 
@@ -108,8 +100,6 @@
108
100
 
109
101
 
110
102
 
111
- #csvファイルの読み込み
112
-
113
103
  df = pd.read_csv('sasa_2019.csv',
114
104
 
115
105
  encoding = "shift-jis",
@@ -119,8 +109,6 @@
119
109
  names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
120
110
 
121
111
 
122
-
123
- #使わない列の削除
124
112
 
125
113
  sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
126
114
 
@@ -134,13 +122,9 @@
134
122
 
135
123
 
136
124
 
137
- #教師データとテストデータの分割
138
-
139
125
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
140
126
 
141
127
 
142
-
143
- #標準化
144
128
 
145
129
  scaler = preprocessing.StandardScaler()
146
130
 
@@ -152,23 +136,17 @@
152
136
 
153
137
 
154
138
 
155
- #ニューラルネットワークによる分類
156
-
157
139
  clf = MLPClassifier(hidden_layer_sizes=(100,100),max_iter=1000)
158
140
 
159
141
  clf.fit(X_train, y_train)
160
142
 
161
143
 
162
144
 
163
- #交差検証の結果
164
-
165
145
  score = cross_val_score(clf,X,y,cv=5)
166
146
 
167
147
  print("Cross -Validation score:{}".format(score))
168
148
 
169
149
 
170
-
171
- #層化K分割交差検証の結果
172
150
 
173
151
  kfold = KFold(n_splits=5)
174
152
 
@@ -178,8 +156,6 @@
178
156
 
179
157
 
180
158
 
181
- #正解率の表示の結果
182
-
183
159
  print ("正解率=",clf.score(X_test, y_test))
184
160
 
185
161
  ```

1

コードの記入、実験条件の追加

2020/01/17 04:41

投稿

melo_yuya
melo_yuya

スコア16

test CHANGED
File without changes
test CHANGED
@@ -1,11 +1,185 @@
1
1
  ニューラルネットワークによるクラス分類を行いました。評価方法はホールドアウト検証、交差検証、層化k分割交差検証の3種類で行いました。
2
2
 
3
- 7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。
3
+ 7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。```Python
4
4
 
5
5
 
6
6
 
7
- 最適なパラメータをを用いてクラス分類を行ったところ、分類精度はホールドアウト検証の方が交差検証・層化k分割交差検証よりも0.1ほど良い結果が得られました。
7
+ import pandas as pd
8
+
9
+ from sklearn.model_selection import train_test_split
10
+
11
+ from sklearn import preprocessing
12
+
13
+ from sklearn.neural_network import MLPClassifier
14
+
15
+ from sklearn.model_selection import GridSearchCV
16
+
17
+
18
+
19
+ #csvファイルの読み込み
20
+
21
+ df = pd.read_csv('sasa_2019.csv',
22
+
23
+ encoding = "shift-jis",
24
+
25
+ skiprows = 1,
26
+
27
+ names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
28
+
29
+
30
+
31
+ #使わない列の削除
32
+
33
+ sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
34
+
35
+ sasa = sasa.dropna(how='any')
36
+
37
+
38
+
39
+ X=sasa.loc[:,["A_avg",'0404N','0504N','0511N','00524N','1001N','1028N','1117N','0409N','0416N','0516N','0625N','1102N','1115N']]
40
+
41
+ y=sasa['rorn']
42
+
43
+
44
+
45
+ #教師データとテストデータの分割
46
+
47
+ X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
48
+
49
+
50
+
51
+ #標準化
52
+
53
+ scaler = preprocessing.StandardScaler()
54
+
55
+ scaler.fit(X_train)
56
+
57
+ X_train = scaler.transform(X_train)
58
+
59
+ X_test = scaler.transform(X_test)
60
+
61
+
62
+
63
+ param_grid = {'hidden_layer_sizes': [(100,100),(10,10),(100,),(10,)],
64
+
65
+ 'max_iter': [10000,1000,100,10]}
66
+
67
+
68
+
69
+ grid_search = GridSearchCV(MLPClassifier(random_state=0), param_grid, cv=5)
70
+
71
+ grid_search.fit(X_train, y_train)
72
+
73
+ print("P.260~")
74
+
75
+ print("Test set score: {:.2f}".format(grid_search.score(X_test, y_test)))
76
+
77
+ print("Best parameters: {}".format(grid_search.best_params_))
78
+
79
+ print("Best cross-validation score: {:.2f}".format(grid_search.best_score_))
80
+
81
+ print("Best estimator:\n{}".format(grid_search.best_estimator_))
82
+
83
+ ```
84
+
85
+ 上記のコードで求められた最適なパラメータをを用いてクラス分類を行ったところ、分類精度はホールドアウト検証の方が交差検証・層化k分割交差検証よりも0.1ほど良い結果が得られました。
8
86
 
9
87
 
10
88
 
11
89
  これはニューラルネットワークの特徴か何かが要因となっているのでしょうか?
90
+
91
+
92
+
93
+ 以下が各評価方法の結果を出力したコードになります。
94
+
95
+ ```Python
96
+
97
+ import pandas as pd
98
+
99
+ from sklearn.model_selection import train_test_split
100
+
101
+ from sklearn import preprocessing
102
+
103
+ from sklearn.neural_network import MLPClassifier
104
+
105
+ from sklearn.model_selection import cross_val_score
106
+
107
+ from sklearn.model_selection import KFold
108
+
109
+
110
+
111
+ #csvファイルの読み込み
112
+
113
+ df = pd.read_csv('sasa_2019.csv',
114
+
115
+ encoding = "shift-jis",
116
+
117
+ skiprows = 1,
118
+
119
+ names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
120
+
121
+
122
+
123
+ #使わない列の削除
124
+
125
+ sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
126
+
127
+ sasa = sasa.dropna(how='any')
128
+
129
+
130
+
131
+ X=sasa.loc[:,["A_avg","0504N","1117N"]]
132
+
133
+ y=sasa['rorn']
134
+
135
+
136
+
137
+ #教師データとテストデータの分割
138
+
139
+ X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
140
+
141
+
142
+
143
+ #標準化
144
+
145
+ scaler = preprocessing.StandardScaler()
146
+
147
+ scaler.fit(X_train)
148
+
149
+ X_train = scaler.transform(X_train)
150
+
151
+ X_test = scaler.transform(X_test)
152
+
153
+
154
+
155
+ #ニューラルネットワークによる分類
156
+
157
+ clf = MLPClassifier(hidden_layer_sizes=(100,100),max_iter=1000)
158
+
159
+ clf.fit(X_train, y_train)
160
+
161
+
162
+
163
+ #交差検証の結果
164
+
165
+ score = cross_val_score(clf,X,y,cv=5)
166
+
167
+ print("Cross -Validation score:{}".format(score))
168
+
169
+
170
+
171
+ #層化K分割交差検証の結果
172
+
173
+ kfold = KFold(n_splits=5)
174
+
175
+ print("Cross-Validation scoreK:\n{}".format(
176
+
177
+ cross_val_score(clf,X,y,cv=kfold)))
178
+
179
+
180
+
181
+ #正解率の表示の結果
182
+
183
+ print ("正解率=",clf.score(X_test, y_test))
184
+
185
+ ```