掲題の件について、皆様はどのようにデータを定義しているのか(もしくは定義が不要なのか)を御指南いただきたいです。
まずはエラーコードについて以下の通りです。
name 'X_train' is not defined
書いたコードは以下の通りです。
#Kaggleよりデータの読み込み train = pd.read_csv('../input/titanic/train.csv') test = pd.read_csv('../input/titanic/test.csv') gender_submission = pd.read_csv('../input/titanic/gender_submission.csv') #データの整形(特徴エンジニアリング) data = pd.concat([train, test], sort=False) data['Sex'].replace(['male', 'female'], [0, 1], inplace=True) data['Fare'].fillna(np.mean(data['Fare']), inplace=True) #ロジスティック回帰の設定 from sklearn.linear_model import LogisticRegression clf = LogisticRegression(penalty='12', solver='sag', random_state=0) clf.fit(X_train, y_train)
参考書(※)の通りに進めてはいたのですが、エラー内容からして、データの名前について定義がされていないということかと思いました。
※参考書は「Pythonではじめる Kaggleスタートブック(石原祥太郎 村田秀樹 著)」のP.51~P.56です。
確かにX_train, y_trainと定義はコード内には無かったなと感じましたが、どのようにデータを分けたりしていますでしょうか?
それとも、基本的にこちらのデータは定義されていて、単なる僕のちょっとしたミスなのでしょうか?
ご指導いただきたいです。
お手数をおかけしますがよろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー