実現したいこと
Visual Studio Codeを利用してPythonにより機械学習的を実行するコードを書いています。
13個の入力変数から、1個の変数を出力する回帰モデルを作製しようと考えています。
データセットは自分で作製したcsvファイル("lac.csv"と表記)を読み込んで使用します。
csvファイルは、1行目に変数名(13個の変数)、2行目以降には数値が記入されています。
また、1つのセルに1つのデータが記入しているファイル(カンマ区切りでない)となります。
発生している問題・エラーメッセージ
Traceback (most recent call last): File "c:/Users/tebas/Desktop/test/df/DF.py", line 19, in <module> X = DataFrame(lac_dataset.drop("lactics")) File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\util\_decorators.py", line 311, in wrapper return func(*args, **kwargs) File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\frame.py", line 4901, in drop return super().drop( File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\generic.py", line 4147, in drop obj = obj._drop_axis(labels, axis, level=level, errors=errors) File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\generic.py", line 4182, in _drop_axis new_axis = axis.drop(labels, errors=errors) File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\indexes\base.py", line 6018, in drop raise KeyError(f"{labels[mask]} not found in axis") KeyError: "['lactics'] not found in axis"
該当のソースコード
Python
1# データ整理用 2import pandas as pd 3from pandas import Series,DataFrame 4# 数値計算用 5import numpy as np 6#データの可視化用 7import matplotlib.pyplot as plt 8import seaborn as sns 9 10from sklearn.model_selection import train_test_split 11from sklearn.metrics import mean_squared_error 12 13from deepforest import CascadeForestRegressor 14 15# CSVファイルの読み込み 16lac_dataset = pd.read_csv("lac.csv",skipinitialspace=True,sep=",",header=0) 17 18# 13種類の説明変数 19X = DataFrame(lac_dataset.drop("lactics")) 20 21# 目的変数 22y = DataFrame(lac_dataset["lactics"]) 23 24#説明変数・目的変数をそれぞれ訓練データ・テストデータに分割 25X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.10, shuffle=False) 26 27model = CascadeForestRegressor(random_state=1) 28model.fit(X_train, y_train) 29y_pred = model.predict(X_test) 30mse = mean_squared_error(y_test, y_pred) 31print("\nTesting MSE: {:.3f}".format(mse))
試したこと
csvファイルの読み込みは上手くいっている(printで出力される)ことを確認しました。
スペースは空いてなく、指定した変数名(lactics)はcsvファイルの1行目に存在しています。
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。
> データセットは自分で作製したcsvファイル("lac.csv"と表記)を読み込んで使用します。
> また、1つのセルに1つのデータが記入しているファイル(カンマ区切りでない)となります。
上記は矛盾しているようです。どういうことでしょうか?
ご指摘ありがとうございます。
言葉での説明が難しかったため、csvファイルのスクリーンショットを追記いたしました。
a~mが入力変数、lacticsが出力変数となります。
データは全部で200行あります。
print(lac_dataset.columns)で何が表示されますか?
そちらのコードを16行目の「lac_dataset = pd.read_csv("lac.csv",skipinitialspace=True,sep=",",header=0)」の直後に入力したところ、
Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm',
'lactics'],
dtype='object')
と出力されました。19行目「X = DataFrame(lac_dataset.drop("lactics"))」より下にそちらのコードを入力しても、エラーのみ表示されIndexは出力されませんでした。
回答1件
あなたの回答
tips
プレビュー