RandomForestの精度評価を正確に反映させたい

前提

時系列データをRandomForestClassifierで分類しようとしています。
先程までは、valueerrorが発生してしまうという質問だったのですが、データ内容を変更した所、エラーは解消されました。
しかし、その後のclf = RandomForestClassifier～～～で行った精度評価に違和感を覚えてしまい、こちらで質問内容を変更させて頂きたく、修正しております。

機械学習は初めて触っており、分からないことばかりなので不十分な質問になってしまっていたら申し訳ございません。
なにかアドバイスを頂ければ幸いです。

追記

実現したいこと

ここに実現したいことを箇条書きで書いてください。

RandomForestClassifierを実装した時に、どのデータを使用しても精度が100％になってしまう原因を知り、正確な出力ができるよう対処したい。

発生している問題・エラーメッセージ

エラーは出ないのですが、分類の精度評価がデータを変更しても精度評価のスコアが100％になってしまいます。

該当のソースコード

GoogleColaboratory
1import pandas as pd
2from sklearn.model_selection import train_test_split
3from sklearn.ensemble import RandomForestClassifier
4
5df = pd.read_csv("k100xt_v2.csv")
6
7df.shape
8
9df.head()
10
11df = df[(df["t"] == "curve") | (df["t"] == "straight")]
12
13df["t"] = df["t"].replace("straight",0)
14df["t"] = df["t"].replace("curve",1)
15
16df = pd.get_dummies(df,drop_first = True)
17
18train_data = df.drop("x", axis=1)
19y = df["t"].values
20X = train_data.values
21
22X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
23
24X_train.shape,X_test.shape,y_train.shape,y_test.shape
25
26clf = RandomForestClassifier(random_state=0)
27clf.fit(X_train, y_train)
28print("score=", clf.score(X_test, y_test))
29

試したこと

・データの行数を300や700に変更
・random_stateを1234から0や34などランダムに変更

補足情報（FW/ツールのバージョンなど）

以下のサイトを参考にしており、元々使用しているデータと違う為必要の無いコードがある可能性があります。質問文を簡潔に書くことができず、申し訳ございません。
https://qiita.com/Hawaii/items/5831e667723b66b46fba

読み込んだデータは1002行7列の加速度データで線形となっており、文字数の関係上こちらに全文記載することはできませんが、序盤の30行ほどを記載させて頂きます。

x,y,z,re,xt,abs,t
-0.026031,-0.976059,0.119003,0.983631282,0,0.026031,straight
-0.064987,-1.03804,0.12355,1.047384817,0,0.064987,straight
-0.004471,-0.995529,0.139633,1.005283718,0,0.004471,straight
-0.085449,-0.960175,0.097488,0.968886718,0,0.085449,straight
0.035767,-0.907028,0.14296,0.918921451,0,0.035767,straight
-0.011917,-0.894821,0.142151,0.906120049,0,0.011917,straight
0.003983,-0.69928,0.007187,0.699328275,0,0.003983,straight
-0.078888,-0.890335,-0.034653,0.894494583,0,0.078888,straight
0.152542,-0.717941,-0.035721,0.734836261,0,0.152542,straight
-0.061661,-1.015518,-0.035339,1.018001833,0,0.061661,straight
-0.096069,-1.020569,0.138306,1.034368835,0,0.096069,straight
-0.047028,-1.07959,0.099106,1.08514893,0,0.047028,straight
-0.077408,-1.119263,0.169281,1.1346355,0,0.077408,straight
0.121902,-1.052505,0.157715,1.071214681,0,0.121902,straight
0.021805,-1.08139,0.156631,1.092892063,0,0.021805,straight
-0.099991,-0.915634,0.155319,0.934081267,0,0.099991,straight
-0.198471,-1.043808,0.098312,1.067047856,0,0.198471,straight
0.081284,-1.092499,0.100479,1.100116895,0,0.081284,straight
-0.296371,-0.95253,0.216736,1.020844584,0,0.296371,straight
0.122726,-0.81517,0.036789,0.82517709,0,0.122726,straight
-0.082077,-0.774368,-0.265396,0.82268917,0,0.082077,straight
-0.155334,-0.872314,-0.045181,0.887187516,0,0.155334,straight
-0.10614,-1.170898,0.0047,1.175708261,0,0.10614,straight
-0.02742,-1.092712,0.263962,1.12447646,0,0.02742,straight
-0.108902,-1.078354,0.145279,1.093532342,0,0.108902,straight
-0.191116,-0.966019,-0.031448,0.985244645,0,0.191116,straight
-0.052795,-0.955856,-0.029785,0.957776149,0,0.052795,straight
-0.081512,-1.054367,0.057022,1.059049331,0,0.081512,straight
-0.220535,-1.044144,0.092484,1.071179569,0,0.220535,straight

ps_aux_grep

2022/11/12 04:38 編集

示していただいたデータのtは全てstraightですが，このk100xt_v2.csvの中にcurveはあるのでしょうか？前回の質問での > 例えば決定木の分岐条件で○軸加速度の値○○以上などで分類して、というのも難しい物なのでしょうかですが，これが可能なのは構造化データのみだと思った方が良いです．今回の非構造化データに対するランダムフォレストによる分類ではx軸加速度の値が時刻tで〇以上〇以下でかつ y軸加速度の値が時刻t+100で〇以上〇以下みたいな，変な情報抽出をしかねません例えば次のサイトでは https://www.talend.com/jp/resources/data-mining-techniques/ 複雑なランダムフォレストモデルは、入力を基にして常に簡単に出力を理解できるとは限らないため、ブラックボックス型の機械学習手法と見なされます。と書かれています．指導教員による指示でホワイトボックスな決定木よりも強力であるランダムフォレストを使わされているなら，ブラックボックスであることを勉強して論破してやった方がいいと思います．もはや単純な全層結合ニューラルネットワークを使うことと何ら変わらないです．時系列データを扱えるニューラルネットワークで分類した方が筋が通っていますもし，直進か右左折となる加速度の条件抽出したいなら線形手法で構成した単純な分類器のハイパーパラメータチューニング(ベイズ最適化とか)による抽出をおすすめします．

bsdfan

2022/11/11 22:45

train_data = df.drop("x", axis=1) X = train_data.values dropするのは t では？ X に t 列の値が含まれているので、それで学習すると正解を知っているので、100% になってもおかしくはないですね。

ps_aux_grep

2022/11/12 10:23

そうですね，tの値をそのまま出力したら高精度になる，という学習がおきますね．

前提

追記

実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

改善案

モデル評価について

関連した質問