Kaggleのtitanicについて：ロジスティック回帰で分析ができない(訓練データ、テストデータの切り分けについて)

掲題の件について、皆様はどのようにデータを定義しているのか(もしくは定義が不要なのか)を御指南いただきたいです。

まずはエラーコードについて以下の通りです。

name 'X_train' is not defined

書いたコードは以下の通りです。

#Kaggleよりデータの読み込み
train = pd.read_csv('../input/titanic/train.csv')
test = pd.read_csv('../input/titanic/test.csv')
gender_submission = pd.read_csv('../input/titanic/gender_submission.csv')

#データの整形(特徴エンジニアリング)
data = pd.concat([train, test], sort=False)
data['Sex'].replace(['male', 'female'], [0, 1], inplace=True)
data['Fare'].fillna(np.mean(data['Fare']), inplace=True)

#ロジスティック回帰の設定
from sklearn.linear_model import LogisticRegression

clf = LogisticRegression(penalty='12', solver='sag', random_state=0)
clf.fit(X_train, y_train)

参考書(※)の通りに進めてはいたのですが、エラー内容からして、データの名前について定義がされていないということかと思いました。

※参考書は「Pythonではじめる　Kaggleスタートブック(石原祥太郎村田秀樹著)」のP.51~P.56です。

確かにX_train, y_trainと定義はコード内には無かったなと感じましたが、どのようにデータを分けたりしていますでしょうか？

それとも、基本的にこちらのデータは定義されていて、単なる僕のちょっとしたミスなのでしょうか？

ご指導いただきたいです。

お手数をおかけしますがよろしくお願いいたします。