質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

975閲覧

簡単的なKNeighborsClassifierの例を使用します。

sumorday

総合スコア1

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/05/20 10:28

編集2021/05/20 10:36

1.前提・実現したいこと

あ。学生データセットを2つのセットに分割します。最初の500行をトレインセットとして使用し、残りをテストセットとして使用します。すべてのコードについて、トレインセットのみを使用してトレーニングし、テストセットを使用して精度を計算します。

い。KNeighborsClassifierを使用して、不在からG3_binaryを予測します。 kを2に設定します。

う。モデルのパフォーマンスを判断するには、欠席と#2のモデルを使用してG3_binaryを予測します。 G3_binaryからの最初の20個の値と私たちが行った予測を出力します。

データー:
!curl https://dl.dropboxusercontent.com/s/ijh78s1bxm7kctv/gp_data.csv -so gp_data.csv
!curl https://dl.dropboxusercontent.com/s/1770hoabg1utoat/gp_grades.csv -so gp_grades.csv
!curl https://dl.dropboxusercontent.com/s/ymjz6vqjw3jg4e7/ms_data.csv -so ms_data.csv
!curl https://dl.dropboxusercontent.com/s/k1howfpyp5rmgnb/ms_grades.csv -so ms_grades.csv

df1 = pd.read_csv('gp_data.csv',sep= ";") df2 = pd.read_csv('ms_data.csv',sep= ";") student_data = pd.concat([df1, df2]) df3 = pd.read_csv('gp_grades.csv',sep= ";") df4 = pd.read_csv('ms_grades.csv',sep= ";") student_grades = pd.concat([df3, df4]) student = pd.merge(left=student_grades, right=student_data, left_on='student_id', right_on='student_id') df = student df['G3_binary'] = pd.Series(np.where(df.G3.values < 12, 0, 1), df.index) # データセットを2つのセットに分割します(問題がない) student = pd.merge(left=student_grades, right=student_data, left_on='student_id', right_on='student_id') df = student.sample(frac=1).reset_index(drop=True) df_train = df.loc[:500].reset_index(drop=True) df_test = df.loc[500:].reset_index(drop=True) df['G3_binary'] = pd.Series(np.where(df.G3.values < 12, 0, 1), df.index) import imp from sklearn.neighbors import KNeighborsClassifier model = KNeighborsClassifier(n_neighbors=2) # 問題があります。 X = df_train.drop('G3_binary',axis=1).values y = df_train["G3_binary"].values model.fit(X, y)

2.発生している問題・エラーメッセージ

"['G3_binary'] not found in axis"

3.該当のソースコード

X = df_train.drop('G3_binary',axis=1).values

4.自分で調べたことや試したこと

この方式ができる。 X = df[["G3_binary"]] y = df[["absences"]] でも、X = df_train[["G3_binary"]]ができませんでした。別の方法df.iloc[-1]も問題があります。

5.使っているツールのバージョンなど補足情報

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2021/05/20 10:40

> でも、X = df_train[["G3_binary"]]ができませんでした。別の方法df.iloc[-1]も問題があります。 発生したエラーメッセージ等を追記してください。
sumorday

2021/05/20 10:56

お疲れ様でした。"['G3_binary'] not found in axis" これです
guest

回答1

0

python

1df_train = df.loc[:500].reset_index(drop=True) 2df_test = df.loc[500:].reset_index(drop=True) 3df['G3_binary'] = pd.Series(np.where(df.G3.values < 12, 0, 1), 4 df.index)

dfをdf_trainとdf_testに分割した後に、
dfにG3_binary列を追加しているので、
df_trainとdf_testにはG3_binary列は存在しません。
そのため、エラーになっています。

dfにG3_binary列を追加した後に、
dfをdf_trainとdf_testに分割したらよいと思います。

python

1df['G3_binary'] = pd.Series(np.where(df.G3.values < 12, 0, 1), 2 df.index) 3df_train = df.loc[:500].reset_index(drop=True) 4df_test = df.loc[500:].reset_index(drop=True)

投稿2021/05/22 14:47

編集2021/05/22 14:49
bsdfan

総合スコア4794

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問