python2.7において、csvファイルで読み込んだデータをscikit-learn を用いて、単回帰分析出来ずに苦慮しております。

python2.7において、csvファイルで読み込んだデータをscikit-learn を用いて、単回帰分析出来ずに苦慮しております。

成書等を参考にして、以下の単回帰分析のスクリプトを作成しました。

# -*- coding: utf-8 -*- 

import csv 
import matplotlib.pyplot as plt 
import numpy as np 
import pandas as pd
import numpy as np

jockey = pd.read_csv("jockey_1.csv", delim_whitespace=True)
#print jockey.head   #概要を見てみる

# sklearn.linear_model.LinearRegression クラスを読み込み
from sklearn import linear_model
clf = linear_model.LinearRegression()
 
# 説明変数に "course (コース)" を利用
X = jockey.loc[:, ['course']].as_matrix()
 
# 目的変数に "arrival (到着)" を利用
Y = jockey['arrival'].as_matrix()
 
# 予測モデルを作成
clf.fit(X, Y)
 
# 回帰係数
print(clf.coef_)
 
# 切片 (誤差)
print(clf.intercept_)
 
# 決定係数
print(clf.score(X, Y))

jockey_1.csv の中身は、以下の通りでございます。

horse_num	kinryo	course	distance	difference	baba	horse_weight	delta_weight	arrival
11	58	2	1600	-0.6	3	512	4	1
12	57	2	2400	0.3	5	486	2	1
16	52	1	1600	2.3	3	454	-6	0
10	57	1	1600	0.4	3	494	2	0
7	54	2	1800	-0.2	5	494	-2	1
15	56	1	1600	2	3	474	24	0
6	54	1	2000	1.4	3	440	0	0
11	54	2	1200	1.9	5	402	-4	0
コード

普通のcsvファイルでございます。

上記のスクリプトを実行しますと、以下のようなエラーが出てまいります。

KeyError: "None of [['course']] are in the [columns]"

KeyError

辞書に登録されていない内容を出そうとした時

いろいろ調べましたが、解決策がみつかりません。

先輩方の御教示、よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

エラーメッセージですが、要は

あなたのデータ(jockey)には 'course' という列が存在しないよ

ということです。

提示していただいたソースコードはとくに問題ないように思いますので、
おそらくエラーの原因はデータ側にあるのではないでしょうか。

再度データを確認してみることをお勧めします。
カラム名のスペルミスなどはありませんか？

投稿2017/06/19 23:32

magichan

総合スコア15898

akakage13

2017/06/20 09:38

magichan様、御教示ありがとうございます。早速、再度、データを確認しましたところ、 jockey = pd.read_csv("jockey_1.csv" , sep=",") 上記のようにデータをコンマ区切りでの読み込みで、解決致しました。今後とも、よろしくお願いいたします！！！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

python2.7において、csvファイルで読み込んだデータをscikit-learn を用いて、単回帰分析出来ずに苦慮しております。

関連した質問