回答編集履歴
5
修正
answer
CHANGED
@@ -31,6 +31,7 @@
|
|
31
31
|
from sklearn.model_selection import train_test_split
|
32
32
|
from sklearn.pipeline import make_pipeline
|
33
33
|
from sklearn.svm import SVC
|
34
|
+
from sklearn.preprocessing import StandardScaler
|
34
35
|
|
35
36
|
# 学習データとテストデータに分割する。
|
36
37
|
X_flatten = X.reshape(len(X), -1) # (374, 10, 3) -> (374, 30)
|
4
修正
answer
CHANGED
@@ -5,60 +5,73 @@
|
|
5
5
|
iris と同じやり方で他のデータセットでも精度が出るということは言えないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
|
6
6
|
入力が数値データの場合、ディープラーニングがいいとも限らないので、他のモデル等も試してみてください。
|
7
7
|
|
8
|
-
##
|
8
|
+
### 追記
|
9
9
|
|
10
|
-
|
10
|
+
R.Shigemori さんのコメントをみて、マージして確認してみたところ、たしかに最初のサンプルだけ4時刻分しかないようなので、train_time_series.csv の4データとtrain_labels.csvの最初の1データを除いて、374個のサンプルデータにするべきみたいです。
|
11
11
|
|
12
|
-
|
12
|
+
#### データ読み込み
|
13
|
-
* モデル: SVM
|
14
13
|
|
15
14
|
```python
|
16
|
-
import
|
15
|
+
import pandas as pd
|
16
|
+
|
17
|
+
# CSV を読みこむ。
|
18
|
+
data = pd.read_csv("train_time_series.csv", skiprows=[1, 2, 3, 4]) # 最初の4行分のデータはスキップ
|
19
|
+
labels = pd.read_csv("train_labels.csv", skiprows=[1]) # 最初の1行分のデータはスキップ
|
20
|
+
|
21
|
+
n_samples = data.shape[0] // 10
|
22
|
+
X = data[["x", "y", "z"]].values.reshape(-1, 10, 3)
|
23
|
+
y = labels["label"].values.astype(int) - 1 # ラベルを 0 始まりにする
|
24
|
+
print(X.shape, y.shape) # (374, 10, 3) (374,)
|
25
|
+
```
|
26
|
+
|
27
|
+
#### SVC の学習サンプル
|
28
|
+
|
29
|
+
```python
|
17
30
|
from sklearn.metrics import accuracy_score
|
18
31
|
from sklearn.model_selection import train_test_split
|
19
|
-
from sklearn.
|
32
|
+
from sklearn.pipeline import make_pipeline
|
20
33
|
from sklearn.svm import SVC
|
21
34
|
|
22
|
-
# データを読み込む。
|
23
|
-
# * 区切り文字: delimiter=","
|
24
|
-
# * 4~6列目を使用: usecols=[4, 5, 6]
|
25
|
-
# * ヘッダースキップ: skiprows=1
|
26
|
-
# * ゲッダー除き、3740行分読み込み: max_rows=3740
|
27
|
-
X = np.loadtxt(
|
28
|
-
"train_time_series.csv", delimiter=",", usecols=[4, 5, 6], skiprows=1, max_rows=3740
|
29
|
-
)
|
30
|
-
|
31
|
-
# ラベルを読み込む。
|
32
|
-
# * 区切り文字: delimiter=","
|
33
|
-
# * 3列目を使用: usecols=3
|
34
|
-
# * ヘッダースキップ: skiprows=1
|
35
|
-
# * ゲッダー除き、374行分読み込み: max_rows=374
|
36
|
-
y = np.loadtxt(
|
37
|
-
"train_labels.csv", delimiter=",", usecols=3, skiprows=1, max_rows=374, dtype=int
|
38
|
-
)
|
39
|
-
|
40
|
-
X = X.reshape(X.shape[0] // 10, -1) # 形状を変更する。(N * 10, 3) -> (N, 30)
|
41
|
-
y -= 1 # クラス ID を [0, 1, 2, 3] にする。
|
42
|
-
|
43
35
|
# 学習データとテストデータに分割する。
|
36
|
+
X_flatten = X.reshape(len(X), -1) # (374, 10, 3) -> (374, 30)
|
44
37
|
X_train, X_test, y_train, y_test = train_test_split(
|
45
|
-
|
38
|
+
X_flatten, y, test_size=0.2, random_state=42
|
46
39
|
)
|
47
40
|
|
48
|
-
# 標準化する。
|
49
|
-
transformer = StandardScaler()
|
50
|
-
X_train = transformer.fit_transform(X_train)
|
51
|
-
X_test = transformer.transform(X_test)
|
52
|
-
|
53
41
|
# SVM で学習する。
|
54
|
-
clf = SVC(gamma="auto")
|
42
|
+
clf = make_pipeline(StandardScaler(), SVC(gamma="auto"))
|
55
43
|
clf.fit(X_train, y_train)
|
56
44
|
|
57
45
|
y_pred = clf.predict(X_test)
|
58
46
|
acc = accuracy_score(y_test, y_pred)
|
59
|
-
print(f"{acc:.2%}") #
|
47
|
+
print(f"{acc:.2%}") # 66.67%
|
60
48
|
```
|
61
49
|
|
50
|
+
## サンプルを可視化した例
|
51
|
+
|
52
|
+
```python
|
53
|
+
import matplotlib.pyplot as plt
|
54
|
+
import numpy as np
|
55
|
+
from mpl_toolkits.mplot3d import Axes3D
|
56
|
+
|
57
|
+
fig = plt.figure(figsize=(12, 10))
|
58
|
+
|
59
|
+
class_ids = np.unique(y)
|
60
|
+
class_names = ["立つ", "歩く", "階段を下る", "階段を登る"]
|
61
|
+
cols = 5
|
62
|
+
|
63
|
+
for i, class_id in enumerate(class_ids):
|
64
|
+
some_samples = X[np.where(y == class_id)][:cols]
|
65
|
+
for j, sample in enumerate(some_samples):
|
66
|
+
ax = fig.add_subplot(4, cols, i * cols + j + 1, projection="3d")
|
67
|
+
ax.plot(sample[:, 0], sample[:, 1], sample[:, 2])
|
68
|
+
ax.set_title(class_names[class_id])
|
69
|
+
|
70
|
+
plt.show()
|
71
|
+
```
|
72
|
+
|
73
|
+

|
74
|
+
|
62
75
|
----
|
63
76
|
|
64
77
|
* 1つのサンプルが10時刻分の x, y, z なので、上記では潰して30次元にしてしまいましたが、時系列データとして扱えるモデルも試すといいかもしれません。
|
3
修正
answer
CHANGED
@@ -61,4 +61,5 @@
|
|
61
61
|
|
62
62
|
----
|
63
63
|
|
64
|
+
* 1つのサンプルが10時刻分の x, y, z なので、上記では潰して30次元にしてしまいましたが、時系列データとして扱えるモデルも試すといいかもしれません。
|
64
|
-
標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。
|
65
|
+
* 標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。
|
2
修正
answer
CHANGED
@@ -57,4 +57,8 @@
|
|
57
57
|
y_pred = clf.predict(X_test)
|
58
58
|
acc = accuracy_score(y_test, y_pred)
|
59
59
|
print(f"{acc:.2%}") # 70.67%
|
60
|
-
```
|
60
|
+
```
|
61
|
+
|
62
|
+
----
|
63
|
+
|
64
|
+
標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。
|
1
修正
answer
CHANGED
@@ -1,8 +1,9 @@
|
|
1
1
|
> 各層のニューロン数や重み、バッチ数の変更をしたり特徴を足し引きしたり、ドロップアウトの割合を変えたりとりあえず思いつくことはやってみたのですが、制度は60パーセントを超えませんでした。出力層のyの値を見てみると最大の要素はインデックスの1に全て集まっておりargmaxを使った時に全て1になっていました。各層の実装は'はじめてのディープラーニング’著 我妻幸長 のIrisの品種分類の部分を参考に書いたためミスはないと思います。入力のデータの前処理がうまくいっていないのかと思うのですが原因がわかりません。
|
2
2
|
|
3
3
|
iris は簡単な問題ですから、適当なモデルを使ってもほぼ100%の精度が出ます。
|
4
|
-
iris と同じやり方で他のデータセットでも精度が出ることはないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
|
5
4
|
4クラスなので、完全にランダムに答えたら、25%になるはずですから、60%でも全然ダメということはないと思います。
|
5
|
+
iris と同じやり方で他のデータセットでも精度が出るということは言えないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
|
6
|
+
入力が数値データの場合、ディープラーニングがいいとも限らないので、他のモデル等も試してみてください。
|
6
7
|
|
7
8
|
## 参考
|
8
9
|
|