【機械学習】csvファイルに指定した変数が存在するのに、KeyErrorが出てしまうときの解決策を教えてください

実現したいこと

　Visual Studio Codeを利用してPythonにより機械学習的を実行するコードを書いています。
13個の入力変数から、1個の変数を出力する回帰モデルを作製しようと考えています。

　データセットは自分で作製したcsvファイル（"lac.csv"と表記）を読み込んで使用します。
csvファイルは、1行目に変数名（13個の変数）、2行目以降には数値が記入されています。
また、1つのセルに1つのデータが記入しているファイル（カンマ区切りでない）となります。

発生している問題・エラーメッセージ

Traceback (most recent call last):
  File "c:/Users/tebas/Desktop/test/df/DF.py", line 19, in <module>
    X = DataFrame(lac_dataset.drop("lactics"))
  File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\util\_decorators.py", line 311, in wrapper
    return func(*args, **kwargs)
  File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\frame.py", line 4901, in drop
    return super().drop(
  File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\generic.py", line 4147, in drop
    obj = obj._drop_axis(labels, axis, level=level, errors=errors)
  File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\generic.py", line 4182, in _drop_axis
    new_axis = axis.drop(labels, errors=errors)
  File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\indexes\base.py", line 6018, in drop
    raise KeyError(f"{labels[mask]} not found in axis")
KeyError: "['lactics'] not found in axis"

該当のソースコード

Python
1# データ整理用
2import pandas as pd
3from pandas import Series,DataFrame
4# 数値計算用
5import numpy as np
6#データの可視化用
7import matplotlib.pyplot as plt
8import seaborn as sns
9
10from sklearn.model_selection import train_test_split
11from sklearn.metrics import mean_squared_error
12
13from deepforest import CascadeForestRegressor
14
15# CSVファイルの読み込み
16lac_dataset = pd.read_csv("lac.csv",skipinitialspace=True,sep=",",header=0)
17
18# 13種類の説明変数
19X = DataFrame(lac_dataset.drop("lactics"))
20
21# 目的変数
22y = DataFrame(lac_dataset["lactics"]) 
23
24#説明変数・目的変数をそれぞれ訓練データ・テストデータに分割
25X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.10, shuffle=False)
26
27model = CascadeForestRegressor(random_state=1)
28model.fit(X_train, y_train)
29y_pred = model.predict(X_test)
30mse = mean_squared_error(y_test, y_pred)
31print("\nTesting MSE: {:.3f}".format(mse))

試したこと

csvファイルの読み込みは上手くいっている（printで出力される）ことを確認しました。
スペースは空いてなく、指定した変数名（lactics）はcsvファイルの1行目に存在しています。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

meg_

2021/07/10 10:43

> データセットは自分で作製したcsvファイル（"lac.csv"と表記）を読み込んで使用します。 > また、1つのセルに1つのデータが記入しているファイル（カンマ区切りでない）となります。上記は矛盾しているようです。どういうことでしょうか？

mossan555

2021/07/10 10:55

ご指摘ありがとうございます。言葉での説明が難しかったため、csvファイルのスクリーンショットを追記いたしました。 a～mが入力変数、lacticsが出力変数となります。データは全部で200行あります。

meg_

2021/07/10 11:00

print(lac_dataset.columns)で何が表示されますか？

mossan555

2021/07/10 11:08

そちらのコードを16行目の「lac_dataset = pd.read_csv("lac.csv",skipinitialspace=True,sep=",",header=0)」の直後に入力したところ、 Index(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'lactics'], dtype='object') と出力されました。19行目「X = DataFrame(lac_dataset.drop("lactics"))」より下にそちらのコードを入力しても、エラーのみ表示されIndexは出力されませんでした。

行動規範の内容に同意します

回答1件

ベストアンサー

axisの指定をすれば良いでしょう。

python
1X = DataFrame(lac_dataset.drop("lactics", axis=1))

投稿2021/07/10 11:04

meg_

総合スコア10760

mossan555

2021/07/10 11:12

解答ありがとうございます。KeyErrorは出なくなりましたが、今度は別のエラーが発生してしまいました。もしお時間よろしければ、こちらについてもお知恵をお貸し頂けると幸いです。 Traceback (most recent call last): File "c:/Users/tebas/Desktop/test/df/DF.py", line 28, in <module> model.fit(X_train, y_train) File "C:\Users\tebas\Desktop\test\df\lib\site-packages\deepforest\cascade.py", line 1594, in fit self._check_target_values(y) File "C:\Users\tebas\Desktop\test\df\lib\site-packages\deepforest\cascade.py", line 1556, in _check_target_values if not self._check_array_numeric(y): File "C:\Users\tebas\Desktop\test\df\lib\site-packages\deepforest\cascade.py", line 1579, in _check_array_numeric if y.dtype.kind in numeric_types: File "C:\Users\tebas\Desktop\test\df\lib\site-packages\pandas\core\generic.py", line 5478, in __getattr__ return object.__getattribute__(self, name) AttributeError: 'DataFrame' object has no attribute 'dtype'