kaggleのタイタニックのカーネルを実践中です。
print(df_train.columns) # トレーニングデータの列名
print('-'*10) # 区切りを挿入
print(df_test.columns) # テストデータの列名
と入力すると、最初は
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],dtype='object')
Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
'Ticket', 'Fare', 'Cabin', 'Embarked'],
dtype='object')
というように表示されますが、
データの保管や削除をしたり様々な操作をしていくと、
Index(['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch',
'Fare', 'Embarked_C', 'Embarked_Q', 'Embarked_S'],
dtype='object')
Index(['PassengerId', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare',
'Embarked_C', 'Embarked_Q', 'Embarked_S'],
dtype='object')
このように、内容が変わってしまいます。
欠損値などの値もかわってしまったり...