teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

5

修正

2020/05/16 03:50

投稿

tiitoi
tiitoi

スコア21960

answer CHANGED
@@ -31,6 +31,7 @@
31
31
  from sklearn.model_selection import train_test_split
32
32
  from sklearn.pipeline import make_pipeline
33
33
  from sklearn.svm import SVC
34
+ from sklearn.preprocessing import StandardScaler
34
35
 
35
36
  # 学習データとテストデータに分割する。
36
37
  X_flatten = X.reshape(len(X), -1) # (374, 10, 3) -> (374, 30)

4

修正

2020/05/16 03:50

投稿

tiitoi
tiitoi

スコア21960

answer CHANGED
@@ -5,60 +5,73 @@
5
5
  iris と同じやり方で他のデータセットでも精度が出るということは言えないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
6
6
  入力が数値データの場合、ディープラーニングがいいとも限らないので、他のモデル等も試してみてください。
7
7
 
8
- ## 参考
8
+ ### 追記
9
9
 
10
- 特徴量エンジニアリングやモデルパラメータ調整はしてないですがSVM突っ込むだけで70%になりました。
10
+ R.Shigemori さんントをみて、マして確認してみたところ、たしかに最初のサンプルだけ4時刻分しかないようなので、train_time_series.csv の4データとtrain_labels.csvの最初の1データを除いて、374個のサンプルデータするべきみいです
11
11
 
12
- * 前処理: 標準化の
12
+ #### データ読込み
13
- * モデル: SVM
14
13
 
15
14
  ```python
16
- import numpy as np
15
+ import pandas as pd
16
+
17
+ # CSV を読みこむ。
18
+ data = pd.read_csv("train_time_series.csv", skiprows=[1, 2, 3, 4]) # 最初の4行分のデータはスキップ
19
+ labels = pd.read_csv("train_labels.csv", skiprows=[1]) # 最初の1行分のデータはスキップ
20
+
21
+ n_samples = data.shape[0] // 10
22
+ X = data[["x", "y", "z"]].values.reshape(-1, 10, 3)
23
+ y = labels["label"].values.astype(int) - 1 # ラベルを 0 始まりにする
24
+ print(X.shape, y.shape) # (374, 10, 3) (374,)
25
+ ```
26
+
27
+ #### SVC の学習サンプル
28
+
29
+ ```python
17
30
  from sklearn.metrics import accuracy_score
18
31
  from sklearn.model_selection import train_test_split
19
- from sklearn.preprocessing import StandardScaler
32
+ from sklearn.pipeline import make_pipeline
20
33
  from sklearn.svm import SVC
21
34
 
22
- # データを読み込む。
23
- # * 区切り文字: delimiter=","
24
- # * 4~6列目を使用: usecols=[4, 5, 6]
25
- # * ヘッダースキップ: skiprows=1
26
- # * ゲッダー除き、3740行分読み込み: max_rows=3740
27
- X = np.loadtxt(
28
- "train_time_series.csv", delimiter=",", usecols=[4, 5, 6], skiprows=1, max_rows=3740
29
- )
30
-
31
- # ラベルを読み込む。
32
- # * 区切り文字: delimiter=","
33
- # * 3列目を使用: usecols=3
34
- # * ヘッダースキップ: skiprows=1
35
- # * ゲッダー除き、374行分読み込み: max_rows=374
36
- y = np.loadtxt(
37
- "train_labels.csv", delimiter=",", usecols=3, skiprows=1, max_rows=374, dtype=int
38
- )
39
-
40
- X = X.reshape(X.shape[0] // 10, -1) # 形状を変更する。(N * 10, 3) -> (N, 30)
41
- y -= 1 # クラス ID を [0, 1, 2, 3] にする。
42
-
43
35
  # 学習データとテストデータに分割する。
36
+ X_flatten = X.reshape(len(X), -1) # (374, 10, 3) -> (374, 30)
44
37
  X_train, X_test, y_train, y_test = train_test_split(
45
- X, y, test_size=0.2, random_state=42
38
+ X_flatten, y, test_size=0.2, random_state=42
46
39
  )
47
40
 
48
- # 標準化する。
49
- transformer = StandardScaler()
50
- X_train = transformer.fit_transform(X_train)
51
- X_test = transformer.transform(X_test)
52
-
53
41
  # SVM で学習する。
54
- clf = SVC(gamma="auto")
42
+ clf = make_pipeline(StandardScaler(), SVC(gamma="auto"))
55
43
  clf.fit(X_train, y_train)
56
44
 
57
45
  y_pred = clf.predict(X_test)
58
46
  acc = accuracy_score(y_test, y_pred)
59
- print(f"{acc:.2%}") # 70.67%
47
+ print(f"{acc:.2%}") # 66.67%
60
48
  ```
61
49
 
50
+ ## サンプルを可視化した例
51
+
52
+ ```python
53
+ import matplotlib.pyplot as plt
54
+ import numpy as np
55
+ from mpl_toolkits.mplot3d import Axes3D
56
+
57
+ fig = plt.figure(figsize=(12, 10))
58
+
59
+ class_ids = np.unique(y)
60
+ class_names = ["立つ", "歩く", "階段を下る", "階段を登る"]
61
+ cols = 5
62
+
63
+ for i, class_id in enumerate(class_ids):
64
+ some_samples = X[np.where(y == class_id)][:cols]
65
+ for j, sample in enumerate(some_samples):
66
+ ax = fig.add_subplot(4, cols, i * cols + j + 1, projection="3d")
67
+ ax.plot(sample[:, 0], sample[:, 1], sample[:, 2])
68
+ ax.set_title(class_names[class_id])
69
+
70
+ plt.show()
71
+ ```
72
+
73
+ ![イメージ説明](88899561c5a3f121b924e4a3b5c0e2cc.jpeg)
74
+
62
75
  ----
63
76
 
64
77
  * 1つのサンプルが10時刻分の x, y, z なので、上記では潰して30次元にしてしまいましたが、時系列データとして扱えるモデルも試すといいかもしれません。

3

修正

2020/05/16 03:45

投稿

tiitoi
tiitoi

スコア21960

answer CHANGED
@@ -61,4 +61,5 @@
61
61
 
62
62
  ----
63
63
 
64
+ * 1つのサンプルが10時刻分の x, y, z なので、上記では潰して30次元にしてしまいましたが、時系列データとして扱えるモデルも試すといいかもしれません。
64
- 標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。
65
+ * 標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。

2

修正

2020/05/15 16:07

投稿

tiitoi
tiitoi

スコア21960

answer CHANGED
@@ -57,4 +57,8 @@
57
57
  y_pred = clf.predict(X_test)
58
58
  acc = accuracy_score(y_test, y_pred)
59
59
  print(f"{acc:.2%}") # 70.67%
60
- ```
60
+ ```
61
+
62
+ ----
63
+
64
+ 標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。

1

修正

2020/05/15 16:05

投稿

tiitoi
tiitoi

スコア21960

answer CHANGED
@@ -1,8 +1,9 @@
1
1
  > 各層のニューロン数や重み、バッチ数の変更をしたり特徴を足し引きしたり、ドロップアウトの割合を変えたりとりあえず思いつくことはやってみたのですが、制度は60パーセントを超えませんでした。出力層のyの値を見てみると最大の要素はインデックスの1に全て集まっておりargmaxを使った時に全て1になっていました。各層の実装は'はじめてのディープラーニング’著 我妻幸長 のIrisの品種分類の部分を参考に書いたためミスはないと思います。入力のデータの前処理がうまくいっていないのかと思うのですが原因がわかりません。
2
2
 
3
3
  iris は簡単な問題ですから、適当なモデルを使ってもほぼ100%の精度が出ます。
4
- iris と同じやり方で他のデータセットでも精度が出ることはないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
5
4
  4クラスなので、完全にランダムに答えたら、25%になるはずですから、60%でも全然ダメということはないと思います。
5
+ iris と同じやり方で他のデータセットでも精度が出るということは言えないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
6
+ 入力が数値データの場合、ディープラーニングがいいとも限らないので、他のモデル等も試してみてください。
6
7
 
7
8
  ## 参考
8
9