質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.07%

pythonでK近傍法を実行する際に、データを標準化すると、エラーとなり苦慮しております。

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 2,791

akakage13

score 89

pythonでK近傍法を実行する際に、データを標準化すると、エラーとなり苦慮しております。

競馬関連情報を用いて、K近傍法の勉強をさせていただいています。

# -*- coding: utf-8 -*-

import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import LeaveOneOut
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

##############

#訓練データ
jockey = pd.read_csv("jockey_2.csv" , sep=",")

# 標準化
sc = StandardScaler()
jockeystd = sc.fit_transform(jockey)

print jockeystd
###############
# 特徴データとラベルデータを取り出す

jockey_except_arrival = jockey.drop("arrival", axis=1)

features = jockey_except_arrival.as_matrix()
targets = jockey['arrival'].as_matrix()

predicted_labels = []

loo = LeaveOneOut()
for train, test in loo.split(features):

        train_data = features[train]
        target_data = targets[train]

        model = KNeighborsClassifier(n_neighbors=1)
        model.fit(train_data, target_data)
        predicted_label = model.predict(features[test])
        predicted_labels.append(predicted_label)

score = accuracy_score(targets, predicted_labels)
print(score)

model = KNeighborsClassifier(n_neighbors=1)
model.fit(features, targets)
arrival, = model.predict([[3,8,2]])
print(arrival)

jockey_2.csvの内容は、以下のとおりでございます。

weather    race_num    course    arrival
2    11    2    1
2    12    2    1
4    10    1    0
4    8    1    0
4    6    2    1
4    5    1    0
4    4    1    0


上記のソースコードを実行しますと、以下のような結果になります。

[[-1.58113883  1.0422125   1.15470054  1.15470054]
[-1.58113883  1.38961667  1.15470054  1.15470054]
[ 0.63245553  0.69480833 -0.8660254  -0.8660254 ]
[ 0.63245553  0.         -0.8660254  -0.8660254 ]
[ 0.63245553 -0.69480833  1.15470054  1.15470054]
[ 0.63245553 -1.0422125  -0.8660254  -0.8660254 ]
[ 0.63245553 -1.38961667 -0.8660254  -0.8660254 ]]
0.857142857143
0

データを標準化しておりませんので、うまく動きます。

さて、
ここから、ステップアップしまして、上記にございます、標準化された値を用いて、ソースコードを動かしたいのですが、うまく出来ません。

下記が、標準化するために上記のソースコードから改変した箇所でございます。

# 特徴データとラベルデータを取り出す

jockey_except_arrival = jockeystd.drop("arrival", axis=1)

features = jockey_except_arrival.as_matrix()
targets = jockeystd['arrival'].as_matrix()

このソースコードを実行しますと、以下のような、標準化された値と併せて、エラーコードが現れます。

[[-1.58113883  1.0422125   1.15470054  1.15470054]
 [-1.58113883  1.38961667  1.15470054  1.15470054]
 [ 0.63245553  0.69480833 -0.8660254  -0.8660254 ]
 [ 0.63245553  0.         -0.8660254  -0.8660254 ]
 [ 0.63245553 -0.69480833  1.15470054  1.15470054]
 [ 0.63245553 -1.0422125  -0.8660254  -0.8660254 ]
 [ 0.63245553 -1.38961667 -0.8660254  -0.8660254 ]]
Traceback (most recent call last):
  File "C:\Users\satoru\satoru_system_2.7\jockey_record\jockey_test\teisyutu_k-test-hatten.py", line
 27, in <module>
    jockey_except_arrival = jockeystd.drop("arrival", axis=1)
AttributeError: 'numpy.ndarray' object has no attribute 'drop'

標準化された値の右端が、目的変数になっておりますが、1.15470054が 1、-0.8660254 が 0と1と0ではなくなっております。

いろいろ試しましたが、うまく出来ませんでした。

標準化された数値を用いて、K近傍法を動かせるソースコードのご教示をよろしくお願いいたします。

併せまして、テストデータを、一回ずつではなく、

例えば、下記のようなCSVファイルを用いて、一回の入力で、複数のテストデータを入力可能な方法も御教示いただけますと幸いでございます。

weather    race_num    course    arrival
2    6    2    
2    12    7    
4    5    1    
4    7    5    
4    6    2    
7    7    2    
4    4    1    


当たり前ではございますが、一番右端の目的変数を空欄にしております。こちらもいろいろ試しましたが、うまく出来ませんでした。

大きく、2つの質問事項でございます。

先輩方の御教示、よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • akakage13

    2017/06/24 16:31

    そもそも、データを削除しなくても良いように、最初から、データを分割して動かしたところ、ValueError: Unknown label type: 'continuous'連続値は認めないとのエラーが出てまいりました。

    キャンセル

  • akakage13

    2017/06/24 16:32

    # -*- coding: utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_selection import LeaveOneOut from sklearn.metrics import accuracy_score from sklearn.neighbors import KNeighborsClassifier from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import MinMaxScaler ############## #訓練データ(目的変数削除済み) jockey = pd.read_csv("jockey_3.csv" , sep=",") # 標準化 sc = StandardScaler() jockeystd = sc.fit_transform(jockey) #訓練データ(目的変数のみ) jockey_a = pd.read_csv("jockey_3_a.csv" , sep=",") # 標準化 sc = StandardScaler() jockey_astd = sc.fit_transform(jockey_a) print jockeystd print jockey_astd ############### # 特徴データとラベルデータを取り出す (過去)jockey_except_arrival = jockeystd.drop("arrival", axis=1) features = jockeystd.as_matrix() targets = jockey_astd.as_matrix() predicted_labels = [] loo = LeaveOneOut() for train, test in loo.split(features): train_data = features[train] target_data = targets[train] model = KNeighborsClassifier(n_neighbors=1) model.fit(train_data, target_data) predicted_label = model.predict(features[test]) predicted_labels.append(predicted_label) score = accuracy_score(targets, predicted_labels) print(score) model = KNeighborsClassifier(n_neighbors=1) model.fit(features, targets)

    キャンセル

  • akakage13

    2017/06/24 16:34

    見ずらくて申し訳ございません。ValueError: Unknown label type: 'continuous'を吐き出したソースコードでございます。

    キャンセル

回答 1

checkベストアンサー

+1

エラーの原因は標準化するための関数sc.fit_transform()がデータフレームではなく、配列(ndarray)を返すためです。
つまり sc.fit_transform() は 従来 as_matrix()で行っていた配列化の処理も同時に行っていることになります。
しかしながら 配列 には drop()メソッドが無い為エラーを引き起こしてしまいます。

そこで、順番を少し変えて

データ取得 → 標準化 → 特徴データの分離(エラー)→ 特徴データの配列化

から

データ取得 → 特徴データを分離 → 標準化&配列化

とすると良いと思います。

順番を変えることでラベルデータは標準化されないことになりますが、もともとラベルデータを標準化する必要性が全くありませんので、逆に良いかとおもいます。

#訓練データ
jockey = pd.read_csv("jockey_2.csv" , sep=",")

# 訓練データより特徴データのみを取り出す
jockey_except_arrival = jockey.drop("arrival", axis=1)

# 特徴データを標準化して配列に入れる
sc = StandardScaler()
features = sc.fit_transform(jockey_except_arrival)

# ラベルデータを取り出して配列に入れる
targets = jockey['arrival'].as_matrix()

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/06/27 21:25

    magichan様、懇切丁寧な御教示、ありがとうございました。
    目からうろこ、発想がございませんでした。
    今後とも、よろしくお願いいたします。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.07%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る