質問編集履歴
2
コードの追加、実験条件の追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,8 +1,8 @@
|
|
1
1
|
ニューラルネットワークによるクラス分類を行いました。評価方法はホールドアウト検証、交差検証、層化k分割交差検証の3種類で行いました。
|
2
2
|
|
3
|
-
7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。
|
3
|
+
7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。
|
4
4
|
|
5
|
-
|
5
|
+
```Python
|
6
6
|
|
7
7
|
import pandas as pd
|
8
8
|
|
@@ -16,8 +16,6 @@
|
|
16
16
|
|
17
17
|
|
18
18
|
|
19
|
-
#csvファイルの読み込み
|
20
|
-
|
21
19
|
df = pd.read_csv('sasa_2019.csv',
|
22
20
|
|
23
21
|
encoding = "shift-jis",
|
@@ -27,8 +25,6 @@
|
|
27
25
|
names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
|
28
26
|
|
29
27
|
|
30
|
-
|
31
|
-
#使わない列の削除
|
32
28
|
|
33
29
|
sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
|
34
30
|
|
@@ -42,13 +38,9 @@
|
|
42
38
|
|
43
39
|
|
44
40
|
|
45
|
-
#教師データとテストデータの分割
|
46
|
-
|
47
41
|
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
|
48
42
|
|
49
43
|
|
50
|
-
|
51
|
-
#標準化
|
52
44
|
|
53
45
|
scaler = preprocessing.StandardScaler()
|
54
46
|
|
@@ -108,8 +100,6 @@
|
|
108
100
|
|
109
101
|
|
110
102
|
|
111
|
-
#csvファイルの読み込み
|
112
|
-
|
113
103
|
df = pd.read_csv('sasa_2019.csv',
|
114
104
|
|
115
105
|
encoding = "shift-jis",
|
@@ -119,8 +109,6 @@
|
|
119
109
|
names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
|
120
110
|
|
121
111
|
|
122
|
-
|
123
|
-
#使わない列の削除
|
124
112
|
|
125
113
|
sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
|
126
114
|
|
@@ -134,13 +122,9 @@
|
|
134
122
|
|
135
123
|
|
136
124
|
|
137
|
-
#教師データとテストデータの分割
|
138
|
-
|
139
125
|
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
|
140
126
|
|
141
127
|
|
142
|
-
|
143
|
-
#標準化
|
144
128
|
|
145
129
|
scaler = preprocessing.StandardScaler()
|
146
130
|
|
@@ -152,23 +136,17 @@
|
|
152
136
|
|
153
137
|
|
154
138
|
|
155
|
-
#ニューラルネットワークによる分類
|
156
|
-
|
157
139
|
clf = MLPClassifier(hidden_layer_sizes=(100,100),max_iter=1000)
|
158
140
|
|
159
141
|
clf.fit(X_train, y_train)
|
160
142
|
|
161
143
|
|
162
144
|
|
163
|
-
#交差検証の結果
|
164
|
-
|
165
145
|
score = cross_val_score(clf,X,y,cv=5)
|
166
146
|
|
167
147
|
print("Cross -Validation score:{}".format(score))
|
168
148
|
|
169
149
|
|
170
|
-
|
171
|
-
#層化K分割交差検証の結果
|
172
150
|
|
173
151
|
kfold = KFold(n_splits=5)
|
174
152
|
|
@@ -178,8 +156,6 @@
|
|
178
156
|
|
179
157
|
|
180
158
|
|
181
|
-
#正解率の表示の結果
|
182
|
-
|
183
159
|
print ("正解率=",clf.score(X_test, y_test))
|
184
160
|
|
185
161
|
```
|
1
コードの記入、実験条件の追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -1,11 +1,185 @@
|
|
1
1
|
ニューラルネットワークによるクラス分類を行いました。評価方法はホールドアウト検証、交差検証、層化k分割交差検証の3種類で行いました。
|
2
2
|
|
3
|
-
7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。
|
3
|
+
7つのデータセットについてパラメータを交差検証を用いたグリッドサーチにより求めました。ハイパーパラメータはhidden_layer_sizesとmax_iterの2種類用いました。ニューラルネットワークのハイパーパラメータの条件は、hidden_layer_sizesが(100,100)、(10,10)、(100,)、(10,)の4種類とmax_iterが10000,1000,100,10の4種類です。以下が交差検証を用いたグリッドサーチのコードになります。```Python
|
4
4
|
|
5
5
|
|
6
6
|
|
7
|
-
|
7
|
+
import pandas as pd
|
8
|
+
|
9
|
+
from sklearn.model_selection import train_test_split
|
10
|
+
|
11
|
+
from sklearn import preprocessing
|
12
|
+
|
13
|
+
from sklearn.neural_network import MLPClassifier
|
14
|
+
|
15
|
+
from sklearn.model_selection import GridSearchCV
|
16
|
+
|
17
|
+
|
18
|
+
|
19
|
+
#csvファイルの読み込み
|
20
|
+
|
21
|
+
df = pd.read_csv('sasa_2019.csv',
|
22
|
+
|
23
|
+
encoding = "shift-jis",
|
24
|
+
|
25
|
+
skiprows = 1,
|
26
|
+
|
27
|
+
names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
|
28
|
+
|
29
|
+
|
30
|
+
|
31
|
+
#使わない列の削除
|
32
|
+
|
33
|
+
sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
|
34
|
+
|
35
|
+
sasa = sasa.dropna(how='any')
|
36
|
+
|
37
|
+
|
38
|
+
|
39
|
+
X=sasa.loc[:,["A_avg",'0404N','0504N','0511N','00524N','1001N','1028N','1117N','0409N','0416N','0516N','0625N','1102N','1115N']]
|
40
|
+
|
41
|
+
y=sasa['rorn']
|
42
|
+
|
43
|
+
|
44
|
+
|
45
|
+
#教師データとテストデータの分割
|
46
|
+
|
47
|
+
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
|
48
|
+
|
49
|
+
|
50
|
+
|
51
|
+
#標準化
|
52
|
+
|
53
|
+
scaler = preprocessing.StandardScaler()
|
54
|
+
|
55
|
+
scaler.fit(X_train)
|
56
|
+
|
57
|
+
X_train = scaler.transform(X_train)
|
58
|
+
|
59
|
+
X_test = scaler.transform(X_test)
|
60
|
+
|
61
|
+
|
62
|
+
|
63
|
+
param_grid = {'hidden_layer_sizes': [(100,100),(10,10),(100,),(10,)],
|
64
|
+
|
65
|
+
'max_iter': [10000,1000,100,10]}
|
66
|
+
|
67
|
+
|
68
|
+
|
69
|
+
grid_search = GridSearchCV(MLPClassifier(random_state=0), param_grid, cv=5)
|
70
|
+
|
71
|
+
grid_search.fit(X_train, y_train)
|
72
|
+
|
73
|
+
print("P.260~")
|
74
|
+
|
75
|
+
print("Test set score: {:.2f}".format(grid_search.score(X_test, y_test)))
|
76
|
+
|
77
|
+
print("Best parameters: {}".format(grid_search.best_params_))
|
78
|
+
|
79
|
+
print("Best cross-validation score: {:.2f}".format(grid_search.best_score_))
|
80
|
+
|
81
|
+
print("Best estimator:\n{}".format(grid_search.best_estimator_))
|
82
|
+
|
83
|
+
```
|
84
|
+
|
85
|
+
上記のコードで求められた最適なパラメータをを用いてクラス分類を行ったところ、分類精度はホールドアウト検証の方が交差検証・層化k分割交差検証よりも0.1ほど良い結果が得られました。
|
8
86
|
|
9
87
|
|
10
88
|
|
11
89
|
これはニューラルネットワークの特徴か何かが要因となっているのでしょうか?
|
90
|
+
|
91
|
+
|
92
|
+
|
93
|
+
以下が各評価方法の結果を出力したコードになります。
|
94
|
+
|
95
|
+
```Python
|
96
|
+
|
97
|
+
import pandas as pd
|
98
|
+
|
99
|
+
from sklearn.model_selection import train_test_split
|
100
|
+
|
101
|
+
from sklearn import preprocessing
|
102
|
+
|
103
|
+
from sklearn.neural_network import MLPClassifier
|
104
|
+
|
105
|
+
from sklearn.model_selection import cross_val_score
|
106
|
+
|
107
|
+
from sklearn.model_selection import KFold
|
108
|
+
|
109
|
+
|
110
|
+
|
111
|
+
#csvファイルの読み込み
|
112
|
+
|
113
|
+
df = pd.read_csv('sasa_2019.csv',
|
114
|
+
|
115
|
+
encoding = "shift-jis",
|
116
|
+
|
117
|
+
skiprows = 1,
|
118
|
+
|
119
|
+
names = ['ID','menseki','totiriyou','0722R','0604R','0611R','0525A','0606A','0513A','R_avg','A_avg','rorn','0404N','0504N','0511N','00524N','1001N','1028N','1117N','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','0409N','0416N','0516N','0625N','1102N','1115N','22','23','24','25','26','27','28','29','30','31','32','33','34','35','36','37','38','39','40','41','42'])
|
120
|
+
|
121
|
+
|
122
|
+
|
123
|
+
#使わない列の削除
|
124
|
+
|
125
|
+
sasa=df.drop(['1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30','31','32','33','34','35','35','36','37','38','39','40','41','42'],axis = 1)
|
126
|
+
|
127
|
+
sasa = sasa.dropna(how='any')
|
128
|
+
|
129
|
+
|
130
|
+
|
131
|
+
X=sasa.loc[:,["A_avg","0504N","1117N"]]
|
132
|
+
|
133
|
+
y=sasa['rorn']
|
134
|
+
|
135
|
+
|
136
|
+
|
137
|
+
#教師データとテストデータの分割
|
138
|
+
|
139
|
+
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)
|
140
|
+
|
141
|
+
|
142
|
+
|
143
|
+
#標準化
|
144
|
+
|
145
|
+
scaler = preprocessing.StandardScaler()
|
146
|
+
|
147
|
+
scaler.fit(X_train)
|
148
|
+
|
149
|
+
X_train = scaler.transform(X_train)
|
150
|
+
|
151
|
+
X_test = scaler.transform(X_test)
|
152
|
+
|
153
|
+
|
154
|
+
|
155
|
+
#ニューラルネットワークによる分類
|
156
|
+
|
157
|
+
clf = MLPClassifier(hidden_layer_sizes=(100,100),max_iter=1000)
|
158
|
+
|
159
|
+
clf.fit(X_train, y_train)
|
160
|
+
|
161
|
+
|
162
|
+
|
163
|
+
#交差検証の結果
|
164
|
+
|
165
|
+
score = cross_val_score(clf,X,y,cv=5)
|
166
|
+
|
167
|
+
print("Cross -Validation score:{}".format(score))
|
168
|
+
|
169
|
+
|
170
|
+
|
171
|
+
#層化K分割交差検証の結果
|
172
|
+
|
173
|
+
kfold = KFold(n_splits=5)
|
174
|
+
|
175
|
+
print("Cross-Validation scoreK:\n{}".format(
|
176
|
+
|
177
|
+
cross_val_score(clf,X,y,cv=kfold)))
|
178
|
+
|
179
|
+
|
180
|
+
|
181
|
+
#正解率の表示の結果
|
182
|
+
|
183
|
+
print ("正解率=",clf.score(X_test, y_test))
|
184
|
+
|
185
|
+
```
|