(x,y,z)の３軸での加速度を用いた活動体位の予測の機械学習のデータの前処理について

(x,y,z)の３軸での加速度を用いた活動体位の予測の機械学習について

こんにちは、Pythonを学び始めて１ヶ月の初心者です。とても初歩的なことかもしれないのですが質問させてください。
オンラインコースの課題で上記のような予測をするプログラムを作成するというものがあり、取り組んでいます。実装してみたのですが、制度がまったく出ず困っています。入力の値や各層の実装については問題ないと思うのですが、出力を見てみると結果的に全て一つの答えのみになってしまっています。どこが問題なのか等アドバイスをいただければ幸いです。Pythonは自学のみであり、周りに聞ける人もおらず八方塞がりなのでヒントだけでもいただけましたら幸いです。よろしくお願いいたします。

課題の詳細です。
このプロジェクトでは、スマートフォンの3軸加速度計データから身体活動のタイプ（例、歩く、階段を上る）を予測しようとします。

入力データ
このプロジェクトのトレーニングに使用される入力データは、2つのファイルで構成されています。最初のファイルtrain_time_series.csvには、収集された生の加速度計データが含まれており、その形式は次のとおりです。

タイムスタンプ、UTC時間、精度、x、y、z

タイムスタンプ列を時間変数として使用できます。また、ここではx、y、zとラベル付けされた最後の3つの列も必要です。これらは、3つの直交軸のそれぞれに沿った線形加速度の測定値に対応しています。

2番目のファイルtrain_labels.csvには身体活動のラベルが含まれており、これらのラベルを使用してモデルをトレーニングします。身体活動にはそれぞれ整数で番号が付けられています。1 =立つ、2 =歩く、3 =階段を下る、4 =階段を上がる、の４項目です。加速度計は高周波数でサンプリングされるため、train_labels.csvのラベルは、train_time_series.csvの10回ごとの観測に対して提供されます。

活動分類
目標は、さまざまな身体活動をできるだけ正確に分類することです。コードをテストするために、test_time_series.csvというファイルも提供され、プロジェクトの最後に、このテストデータセットのコードによって予測されるアクティビティラベルを提出します。コーススタッフだけがテストデータに対応する真のラベルを持ち、コードの正確さは正しい分類のパーセンテージとして決定されます。どちらの場合も、トレーニングとテストの場合、入力ファイルは単一（3次元）の時系列で構成されていることに注意してください。コードの精度をテストするには、予測をCSVファイルとしてアップロードするように求められます。 test_labels.csvと呼ばれるこのファイルは提供されていますが、予測に必要なタイムスタンプのみが含まれています。対応するクラス予測（1、2、3、4）を追加して、このファイルを拡張する必要があります。

該当のソースコード

Python
1
2%matplotlib inline
3
4import numpy as np
5import pandas as pd
6import matplotlib.pyplot as plt
7
8
9
10def to_input(df):
11    df["synthetic_acce"]=np.sqrt(df.x**2+df.y**2+df.z**2)
12    #合成加速度を計算しn×10行列を作成します
13    #まず、入力データは１０こで1つの動きを規定しています。（ex.入力データのインデックス０−９が一つの対位（座る））
14    #そのため、１サンプルを１０この要素を含む配列に変換します。
15    #そのためのインデックス として以下を書きます
16    index = df.index
17    index_s1= index[index%10==1]
18    index_s2= index[index%10==2]
19    index_s3= index[index%10==3]
20    index_s4=index[index%10==4]
21    index_s5=index[index%10==5]
22    index_s6=index[index%10==6]
23    index_s7=index[index%10==7]
24    index_s8= index[index%10==8]
25    index_s9= index[index%10==9]
26    index_s10= index[index%10==0]
27    #標準化させるために平均と標準偏差を計算します。
28    ave_input=np.array([np.average(df.synthetic_acce[i:i+10]) for i in range(0,len(df.synthetic_acce),10)])
29    std_input=np.array([np.std(df.synthetic_acce[i:i+10]) for i in range(0,len(df.synthetic_acce),10)])
30    #合成加速度の値を作ったインデックスを利用して取り出しそれぞれを標準化させます
31    s1=(df.synthetic_acce.values[index_s1] - ave_input) / std_input
32    s2= (df.synthetic_acce.values[index_s2]- ave_input) / std_input
33    s3=(df.synthetic_acce.values[index_s3]- ave_input) / std_input
34    s4=(df.synthetic_acce.values[index_s4]- ave_input) / std_input
35    s5=(df.synthetic_acce.values[index_s5]- ave_input) / std_input
36    s6= (df.synthetic_acce.values[index_s6]- ave_input) / std_input
37    s7=(df.synthetic_acce.values[index_s7]- ave_input) / std_input
38    s8= (df.synthetic_acce.values[index_s8]- ave_input) / std_input
39    s9= (df.synthetic_acce.values[index_s9]- ave_input) / std_input
40    s10= (df.synthetic_acce.values[index_s10]- ave_input) / std_input
41    #計算した１０この要素を積み重ねn×１０の行列を作成します
42
43    c=np.vstack((s1,s2,s3,s4,s5,s6,s7,s8,s9,s10)).T
44    #特徴を増やすために上記の操作をx軸、y軸、z軸でも行います。インデックスはそのまま使用しています。
45    ave_x=np.array([np.average(df.x[i:i+10]) for i in range(0,len(df.x),10)])
46    std_x=np.array([np.std(df.x[i:i+10]) for i in range(0,len(df.x),10)])
47        
48    x1=(df.x.values[index_s1]- ave_x) / std_x
49    x2= (df.x.values[index_s2]- ave_x) / std_x
50    x3=(df.x.values[index_s3]- ave_x) / std_x
51    x4=(df.x.values[index_s4]- ave_x) / std_x
52    x5=(df.x.values[index_s5]- ave_x) / std_x
53    x6= (df.x.values[index_s6]- ave_x) / std_x
54    x7=(df.x.values[index_s7]- ave_x) / std_x
55    x8= (df.x.values[index_s8]- ave_x) / std_x
56    x9= (df.x.values[index_s9]- ave_x) / std_x
57    x10= (df.x.values[index_s10]- ave_x) / std_x
58    x=np.vstack((x1,x2,x3,x4,x5,x6,x7,x8,x9,x10)).T
59    
60     
61    ave_y=np.array([np.average(df.y[i:i+10]) for i in range(0,len(df.y),10)])
62    std_y=np.array([np.std(df.y[i:i+10]) for i in range(0,len(df.y),10)])
63      
64    y1=(df.y.values[index_s1]- ave_y) / std_y
65    y2= (df.y.values[index_s2]- ave_y) / std_y
66    y3=(df.y.values[index_s3]- ave_y) / std_y
67    y4=(df.y.values[index_s4]- ave_y) / std_y
68    y5=(df.y.values[index_s5]- ave_y) / std_y
69    y6= (df.y.values[index_s6]- ave_y) / std_y
70    y7=(df.y.values[index_s7]- ave_y) / std_y
71    y8= (df.y.values[index_s8]- ave_y) / std_y
72    y9= (df.y.values[index_s9]- ave_y) / std_y
73    y10= (df.y.values[index_s10]- ave_y) / std_y
74    y=np.vstack((y1,y2,y3,y4,y5,y6,y7,y8,y9,y10)).T
75 
76    ave_z=np.array([np.average(df.z[i:i+10]) for i in range(0,len(df.z),10)])
77    std_z=np.array([np.std(df.z[i:i+10]) for i in range(0,len(df.z),10)])
78   
79    z1=(df.z.values[index_s1]- ave_z) / std_z
80    z2= (df.z.values[index_s2]- ave_z) / std_z
81    z3=(df.z.values[index_s3]- ave_z) / std_z
82    z4=(df.z.values[index_s4]- ave_z) / std_z
83    z5=(df.z.values[index_s5]- ave_z) / std_z
84    z6= (df.z.values[index_s6]- ave_z) / std_z
85    z7=(df.z.values[index_s7]- ave_z) / std_z
86    z8= (df.z.values[index_s8]- ave_z) / std_z
87    z9= (df.z.values[index_s9]- ave_z) / std_z
88    z10=(df.z.values[index_s10]- ave_z) / std_z
89    
90    z=np.vstack((z1,z2,z3,z4,z5,z6,z7,z8,z9,z10)).T
91    #計算した物を全て積み重ね、それぞれ１０この要素を合わせたn×４０の行列を作成します。
92    d=np.hstack((x,y,z,c))
93    
94    return d
95
96
97
98def to_one_hot(df):
99    #解答のラベルが１−４の整数であるので、ワンホット表現に変換します。
100    
101    target_vector = [0,1,2,3]               # 整数をベクトルにします
102    n_labels = len(np.unique(target_vector))  # 解答は 4種類です
103    ind=np.eye(n_labels)[target_vector] 
104    x=[]
105    for i in df["label"]:
106        if i ==1 :
107            x.append(ind[0])
108        elif i ==2:
109            x.append(ind[1])
110        elif i ==3:
111            x.append(ind[2])
112        elif i ==4:
113            x.append(ind[3])
114        else:
115            x.append(np.zeros(4))#エラー対策でそれ以外はゼロの配列にします。
116    df["one_hot"]=x
117    
118    v=np.zeros(4)
119    for i in df.one_hot.values:
120        v=np.vstack((v,i))
121
122    vl = np.delete(v, 0, 0)
123    return vl
124
125#入力データはなぜかぴったりではなかったので３４７０こまでを取り出しています。
126df_input_train=pd.read_csv("https://courses.edx.org/assets/courseware/v1/b98039c3648763aae4f153a6ed32f38b/asset-v1:HarvardX+PH526x+1T2020+type@asset+block/train_time_series.csv")[:3740]
127
128
129#解答のラベルです
130df_correct_train=pd.read_csv("https://courses.edx.org/assets/courseware/v1/d64e74647423e525bbeb13f2884e9cfa/asset-v1:HarvardX+PH526x+1T2020+type@asset+block/train_labels.csv", index_col=0)[:374]
131
132
133
134input_data =   to_input(df_input_train)# 入力データを定義します
135correct_data =to_one_hot(df_correct_train)  #  正解のラベルを定義します
136
137input_train=input_data[0::2]#訓練データとテストデータに２分割させます。こちらは訓練データにします
138correct_train=correct_data[0::2 ]#こちらは訓練データの解答となります
139input_test=input_data[1::2]#訓練データとテストデータに２分割させます。こちらはテストデータにします
140correct_test=correct_data[1::2]#こちらはテストデータの解答となります
141
142
143
144n_data = len(correct_data) # サンプル数を定義します
145n_train =len(input_train)
146n_test =len(input_test)
147
148#テストであるかどうかを判定します。
149is_train=True
150
151# -- 各設定値 --
152n_in = 40 # 入力層のニューロン数（s：合成加速度１０＋x：x軸加速度１０＋y：y軸加速度１０z：z軸加速度１０＝合計４０です）
153n_mid =25  # 中間層のニューロン数
154n_out = 4  # 出力層のニューロン数
155
156wb_width = 0.1  # 重みとバイアスの広がり具合
157eta = 0.01  # 学習係数
158epoch = 1000
159batch_size = 10
160interval = 100  # 経過の表示間隔
161
162#以下の各層の実装は’はじめてのディープラーニング’著　我妻幸長　のIrisの品種分類の部分を参考にしています。
163#文字数超えて書けず、ところどころ抜かして書きました。中間層活性化：ReLU、出力層活性化：ソフトマックス関数、損失関数：交差エントロピー誤差、最適化アルゴリズム：AdaGrad、ドロップ層：２層です。
164
165
166#dropout層を追加
167class Dropout:
168    def __init__(self, dropout_ratio):
169        self.dropout_ratio=dropout_ratio
170        
171    def forward(self,x,is_train):
172        if is_train:
173            rand=np.random.rand(*x.shape)
174            self.dropout=np.where(rand>self.dropout_ratio,1,0)
175            self.y=x*self.dropout
176        else:
177            self.y=(1-self.dropout_ratio)*x
178            
179    def backward(self,grad_y):
180
181        self.grad_x=grad_y* self.dropout_ratio
182
183#各層の初期化
184middle_layer_1=MiddleLayer(n_in,n_mid)
185dropout_1=Dropout(0.9)
186middle_layer_2=MiddleLayer(n_mid,n_mid)
187dropout_2=Dropout(0.5)
188output_layer=OutputLayer(n_mid,n_out)
189
190#順伝播
191def forward_propagation(x,is_train):
192    middle_layer_1.forward(x)
193    dropout_1.forward(middle_layer_1.y,is_train)
194    middle_layer_2.forward(dropout_1.y)
195    dropout_2.forward(middle_layer_2.y,is_train)
196    output_layer.forward(dropout_2.y)
197#逆伝播
198def backpropagation(t):
199    output_layer.backward(t)
200    dropout_2.backward(output_layer.grad_x)
201    middle_layer_2.backward(dropout_2.grad_x)
202    dropout_1.backward(middle_layer_2.grad_x)
203    middle_layer_1.backward(dropout_1.grad_x)
204
205# -- 重みとバイアスの更新 --
206def uppdate_wb():
207    middle_layer_1.update(eta)
208    middle_layer_2.update(eta)
209    output_layer.update(eta)
210
211# -- 誤差を計算 --
212def get_error(t, batch_size):
213    return -np.sum(t * np.log(output_layer.y+ 1e-7)) / batch_size  # 交差エントロピー誤差
214
215
216
217  # -- 学習 -- 
218    index_random = np.arange(n_train)
219    np.random.shuffle(index_random)  # インデックスをシャッフルする
220    for j in range(n_batch):
221        
222        # ミニバッチを取り出す
223        mb_index = index_random[j*batch_size : (j+1)*batch_size]
224        x = input_train[mb_index, :]
225        t = correct_train[mb_index, :]
226        
227
228        forward_propagation(x,is_train)
229        backpropagation(t)
230        
231        # 重みとバイアスの更新
232        uppdate_wb() 
233
234

試したこと

各層のニューロン数や重み、バッチ数の変更をしたり特徴を足し引きしたり、ドロップアウトの割合を変えたりとりあえず思いつくことはやってみたのですが、制度は６０パーセントを超えませんでした。出力層のyの値を見てみると最大の要素はインデックスの1に全て集まっておりargmaxを使った時に全て１になっていました。各層の実装は'はじめてのディープラーニング’著　我妻幸長　のIrisの品種分類の部分を参考に書いたためミスはないと思います。入力のデータの前処理がうまくいっていないのかと思うのですが原因がわかりません。

補足情報（FW/ツールのバージョンなど）

jupyter noteで動かしています。全く初心者で質問の際に何を書けばいいのかということもわかっておりませんので追加で必要な部分があればぜひそこも教えていただければと思います。

行動規範の内容に同意します

回答2件

気になったところをコメントします。

まず。df_input_trainとdf_correct_trainをUTC timeでマージしたところ、マージした結果の最初の4件が1セットになっており、10件で1セットという質問に記載のルールに合わないデータが存在します。
まず、ここを考慮せずに単純にdf_input_trainの3470件を説明変数として用いてしまうと状態（x,y,z）とラベルの対応関係が整合しなくなってしまいます。マージしてから10件で1セットのデータを取り出す必要があると思います。

次に「#合成加速度を計算しn×10行列を作成します」としていますが、これだと運動量をうまく表現できると思うのですが、階段を下りるや階段を上るといった運動の向きはうまく表現できていないように思います。
せっかく3軸で加速度がデータとして入手できているのであれば、初期値（10件を一括りとしたときの1っ件目）から3軸方向にどのくらい移動したのかを計算して説明変数にしたほうがいいように感じます。うまく計算できれば、立つの場合は上方向へ大きく移動し、前後・左右はほぼ移動なしや歩くの場合は前後に大きく移動するが上下は移動なし、という感じに前処理でデータを作ることができれば、どんなモデルでもかなりの性能が出るような気がします。

投稿2020/05/15 18:44

R.Shigemori

総合スコア3378

hidebonneidee

2020/05/16 00:07

ご解答いただきありがとうございます！データの数が合わず後ろを切ってしまっていましたが最初の４件が変だったのですね。。盲点でした、、ご指摘ありがとうございます。とても参考になります！加速度のデータを処理することに気を取られて時間変数を使うことを失念しておりました、初期値からの移動量というのも自分では絶対に思いつくことができなかったので本当にありがたいです。頂いたアドバイスを参考にもう少しチャレンジしてみようと思います。本当にありがとうございます。

行動規範の内容に同意します

ベストアンサー

各層のニューロン数や重み、バッチ数の変更をしたり特徴を足し引きしたり、ドロップアウトの割合を変えたりとりあえず思いつくことはやってみたのですが、制度は６０パーセントを超えませんでした。出力層のyの値を見てみると最大の要素はインデックスの1に全て集まっておりargmaxを使った時に全て１になっていました。各層の実装は'はじめてのディープラーニング’著　我妻幸長　のIrisの品種分類の部分を参考に書いたためミスはないと思います。入力のデータの前処理がうまくいっていないのかと思うのですが原因がわかりません。

iris は簡単な問題ですから、適当なモデルを使ってもほぼ100%の精度が出ます。
4クラスなので、完全にランダムに答えたら、25%になるはずですから、60%でも全然ダメということはないと思います。
iris と同じやり方で他のデータセットでも精度が出るということは言えないので、問題に応じて、前処理やモデルをいろいろ試す必要があります。
入力が数値データの場合、ディープラーニングがいいとも限らないので、他のモデル等も試してみてください。

追記

R.Shigemori さんのコメントをみて、マージして確認してみたところ、たしかに最初のサンプルだけ4時刻分しかないようなので、train_time_series.csv の4データとtrain_labels.csvの最初の1データを除いて、374個のサンプルデータにするべきみたいです。

データ読み込み

python
1import pandas as pd
2
3# CSV を読みこむ。
4data = pd.read_csv("train_time_series.csv", skiprows=[1, 2, 3, 4])  # 最初の4行分のデータはスキップ
5labels = pd.read_csv("train_labels.csv", skiprows=[1])  # 最初の1行分のデータはスキップ
6
7n_samples = data.shape[0] // 10
8X = data[["x", "y", "z"]].values.reshape(-1, 10, 3)
9y = labels["label"].values.astype(int) - 1  # ラベルを 0 始まりにする
10print(X.shape, y.shape)  # (374, 10, 3) (374,)

SVC の学習サンプル

python
1from sklearn.metrics import accuracy_score
2from sklearn.model_selection import train_test_split
3from sklearn.pipeline import make_pipeline
4from sklearn.svm import SVC
5from sklearn.preprocessing import StandardScaler
6
7# 学習データとテストデータに分割する。
8X_flatten = X.reshape(len(X), -1)  # (374, 10, 3) -> (374, 30)
9X_train, X_test, y_train, y_test = train_test_split(
10    X_flatten, y, test_size=0.2, random_state=42
11)
12
13# SVM で学習する。
14clf = make_pipeline(StandardScaler(), SVC(gamma="auto"))
15clf.fit(X_train, y_train)
16
17y_pred = clf.predict(X_test)
18acc = accuracy_score(y_test, y_pred)
19print(f"{acc:.2%}")  # 66.67%

サンプルを可視化した例

python
1import matplotlib.pyplot as plt
2import numpy as np
3from mpl_toolkits.mplot3d import Axes3D
4
5fig = plt.figure(figsize=(12, 10))
6
7class_ids = np.unique(y)
8class_names = ["立つ", "歩く", "階段を下る", "階段を登る"]
9cols = 5
10
11for i, class_id in enumerate(class_ids):
12    some_samples = X[np.where(y == class_id)][:cols]
13    for j, sample in enumerate(some_samples):
14        ax = fig.add_subplot(4, cols, i * cols + j + 1, projection="3d")
15        ax.plot(sample[:, 0], sample[:, 1], sample[:, 2])
16        ax.set_title(class_names[class_id])
17
18plt.show()

1つのサンプルが10時刻分の x, y, z なので、上記では潰して30次元にしてしまいましたが、時系列データとして扱えるモデルも試すといいかもしれません。
標準化やディープラーニングの学習など、ライブラリで代用できるものは独自実装ではなく、ライブラリを使ったほうがいいと思います。数値計算の実装でバグがあったりすると、見つけるのはなかなか大変です。

投稿2020/05/15 16:01

編集2020/05/16 03:50

tiitoi

総合スコア21960

hidebonneidee

2020/05/16 00:17

ご解答頂きありがとうございます。まだまだ勉強不足でSVMというものを知らず、wikiで読みました！こんな便利なものがあったのですね！！教えていただきましてありがとうございます！ライブラリを使えば書く量も減らせていいことだらけですね！reshapeの使い方等自分では全く思いつかなかった方法ばかりでとても参考になります。学習させるならディープラーニング！と完全に視野が狭かったので、他のモデルも試してみようと思います！時刻データも他のデータの処理に気を取られていたのですが組み込んでみたいと思います！色々なアドバイスをいただきまして本当にありがとうございます。