回答編集履歴

修正

2020/05/16 03:50

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -31,6 +31,7 @@
 from sklearn.model_selection import train_test_split
 from sklearn.pipeline import make_pipeline
 from sklearn.svm import SVC
+from sklearn.preprocessing import StandardScaler
 # 学習データとテストデータに分割する。
 X_flatten = X.reshape(len(X), -1)  # (374, 10, 3) -> (374, 30)

修正

2020/05/16 03:50

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -5,60 +5,73 @@
 iris と同じやり方で他のデータセットでも精度が出るということは言えないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
 入力が数値データの場合、ディープラーニングがいいとも限らないので、他のモデル等も試してみてください。
-## 参考
+### 追記
-特徴量エンジニアリングやモデルのパラメータ調整はしていないですが、SVM に突っ込むだけで70%になりました。
+R.Shigemori さんのコメントをみて、マージして確認してみたところ、たしかに最初のサンプルだけ4時刻分しかないようなので、train_time_series.csv の4データとtrain_labels.csvの最初の1データを除いて、374個のサンプルデータにするべきみたいです。
-* 前処理: 標準化のみ
+#### データ読み込み
-* モデル: SVM
 ```python
-import numpy as np
+import pandas as pd
+# CSV を読みこむ。
+data = pd.read_csv("train_time_series.csv", skiprows=[1, 2, 3, 4])  # 最初の4行分のデータはスキップ
+labels = pd.read_csv("train_labels.csv", skiprows=[1])  # 最初の1行分のデータはスキップ
+n_samples = data.shape[0] // 10
+X = data[["x", "y", "z"]].values.reshape(-1, 10, 3)
+y = labels["label"].values.astype(int) - 1  # ラベルを 0 始まりにする
+print(X.shape, y.shape)  # (374, 10, 3) (374,)
+```
+#### SVC の学習サンプル
+```python
 from sklearn.metrics import accuracy_score
 from sklearn.model_selection import train_test_split
-from sklearn.preprocessing import StandardScaler
+from sklearn.pipeline import make_pipeline
 from sklearn.svm import SVC
-# データを読み込む。
-# * 区切り文字: delimiter=","
-# * 4~6列目を使用: usecols=[4, 5, 6]
-# * ヘッダースキップ: skiprows=1
-# * ゲッダー除き、3740行分読み込み: max_rows=3740
-X = np.loadtxt(
-    "train_time_series.csv", delimiter=",", usecols=[4, 5, 6], skiprows=1, max_rows=3740
-)
-# ラベルを読み込む。
-# * 区切り文字: delimiter=","
-# * 3列目を使用: usecols=3
-# * ヘッダースキップ: skiprows=1
-# * ゲッダー除き、374行分読み込み: max_rows=374
-y = np.loadtxt(
-    "train_labels.csv", delimiter=",", usecols=3, skiprows=1, max_rows=374, dtype=int
-)
-X = X.reshape(X.shape[0] // 10, -1)  # 形状を変更する。(N * 10, 3) -> (N, 30)
-y -= 1  # クラス ID を [0, 1, 2, 3] にする。
 # 学習データとテストデータに分割する。
+X_flatten = X.reshape(len(X), -1)  # (374, 10, 3) -> (374, 30)
 X_train, X_test, y_train, y_test = train_test_split(
-    X, y, test_size=0.2, random_state=42
+    X_flatten, y, test_size=0.2, random_state=42
 )
-# 標準化する。
-transformer = StandardScaler()
-X_train = transformer.fit_transform(X_train)
-X_test = transformer.transform(X_test)
 # SVM で学習する。
-clf = SVC(gamma="auto")
+clf = make_pipeline(StandardScaler(), SVC(gamma="auto"))
 clf.fit(X_train, y_train)
 y_pred = clf.predict(X_test)
 acc = accuracy_score(y_test, y_pred)
-print(f"{acc:.2%}")  # 70.67%
+print(f"{acc:.2%}")  # 66.67%
 ```
+## サンプルを可視化した例
+```python
+import matplotlib.pyplot as plt
+import numpy as np
+from mpl_toolkits.mplot3d import Axes3D
+fig = plt.figure(figsize=(12, 10))
+class_ids = np.unique(y)
+class_names = ["立つ", "歩く", "階段を下る", "階段を登る"]
+cols = 5
+for i, class_id in enumerate(class_ids):
+    some_samples = X[np.where(y == class_id)][:cols]
+    for j, sample in enumerate(some_samples):
+        ax = fig.add_subplot(4, cols, i * cols + j + 1, projection="3d")
+        ax.plot(sample[:, 0], sample[:, 1], sample[:, 2])
+        ax.set_title(class_names[class_id])
+plt.show()
+```
+![イメージ説明](88899561c5a3f121b924e4a3b5c0e2cc.jpeg)
 ----
 * 1つのサンプルが10時刻分の x, y, z なので、上記では潰して30次元にしてしまいましたが、時系列データとして扱えるモデルも試すといいかもしれません。

修正

2020/05/16 03:45

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -61,4 +61,5 @@
 ----
+* 1つのサンプルが10時刻分の x, y, z なので、上記では潰して30次元にしてしまいましたが、時系列データとして扱えるモデルも試すといいかもしれません。
-標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。
+* 標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。

修正

2020/05/15 16:07

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -57,4 +57,8 @@
 y_pred = clf.predict(X_test)
 acc = accuracy_score(y_test, y_pred)
 print(f"{acc:.2%}")  # 70.67%
-```
+```
+----
+標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。

修正

2020/05/15 16:05

投稿

tiitoi

スコア21960

answer CHANGED Viewed

@@ -1,8 +1,9 @@
 > 各層のニューロン数や重み、バッチ数の変更をしたり特徴を足し引きしたり、ドロップアウトの割合を変えたりとりあえず思いつくことはやってみたのですが、制度は６０パーセントを超えませんでした。出力層のyの値を見てみると最大の要素はインデックスの1に全て集まっておりargmaxを使った時に全て１になっていました。各層の実装は'はじめてのディープラーニング’著　我妻幸長　のIrisの品種分類の部分を参考に書いたためミスはないと思います。入力のデータの前処理がうまくいっていないのかと思うのですが原因がわかりません。
 iris は簡単な問題ですから、適当なモデルを使ってもほぼ100%の精度が出ます。
-iris と同じやり方で他のデータセットでも精度が出ることはないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
 4クラスなので、完全にランダムに答えたら、25%になるはずですから、60%でも全然ダメということはないと思います。
+iris と同じやり方で他のデータセットでも精度が出るということは言えないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
+入力が数値データの場合、ディープラーニングがいいとも限らないので、他のモデル等も試してみてください。
 ## 参考