Python,機械学習,scikit-learnについての質問です。

自作のデータセットを用いて二値分類を行おうとしています。

Python3入門ノートという本のサンプルコードを真似して、
自作のexcelデータをShuffleSplitにかけようとした所でエラーが生じてしまいます。
どう検索しても同じようなエラーの方を見つけられずに困っています。
間違っている部分をどう書けばいいか教えてくださると幸いです。

エラーメッセージは以下のようなものです。
"None of [Int64Index([ 85, 6,154・・・・1795],\n dtype='int64', length=1265)] are in the [columns]"

Excelのデータは以下のようなデータセットを作成しました。

通電回数通電時間判定
660 23934 １
97 3307 ０
1444 43800 １
：
：
：
3695 230700 １

以下に、自分の書いたコードを記述させていただきます。

import pandas as pd
import numpy as np
from sklearn.model_selection import ShuffleSplit

df=pd.read_excel('python用サンプル.xlsx',sheetname='サンプル')
print(df.head())

X_col_names=['通電回数','通電時間']
y_col_name=['判定']

X=df[X_col_names]
y=df[y_col_name]

ss = ShuffleSplit(n_splits=1, train_size=0.6, test_size=0.4, random_state=0)
train_index, test_index = next(ss.split(X))

X_train, y_train = X[train_index], y[train_index]←ここでエラー
X_test, y_test = X[test_index], y[test_index]

お手数ですがご指南よろしくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

DataFrame の一部の行を位置のインデックスで取得する場合、iloc を使用する必要があります。

python
1X_train, y_train = X.iloc[train_index], y.iloc[train_index]
2X_test, y_test = X.iloc[test_index], y.iloc[test_index]

投稿2019/10/30 09:51

総合スコア21956

2019/11/02 03:06

回答ありがとうございます！返信が遅くなってしまい申し訳ありません???? ちょうどPCを修理に出してるため、環境が整い次第実行してみます！ほんとうにありがとうございました(^^)

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問