前提・実現したいこと
ロジスティック回帰を用いて、未知データのクラス分け分類を行おうとしています。
その中で、教師データと未知データの前処理をどう行うかわからず悩んでおります。
教師データで前処理、未知データで前処理を行うべきなのか、二つまとめたデータに対し前処理を行うべきなのかご教授願いたいと思います。
初めての質問なので、至らぬところもあると思いますが、どうかよろしくお願いいたします。
前処理コード
def standardization(data, num_element):
data.fillna(10 ** -10, inplace=True) data = data.replace(0, 10 ** -10) data = data.mask(data < 0, 10**-10) for n in range(num_element): data1, lmbda = stats.boxcox(data.iloc[:,n]) data.iloc[:,n] = data1 print('===================================================') print('Box-Cox is completed') print('===================================================') print(data) data = data.apply(stats.zscore, axis=0) print('===================================================') print('Z-score is completed') print('===================================================') print(data) return data
前処理① 教師データおよび未知データをまとめて前処理
all_data = pd.concat([train_data, analy_data])
all_data = standardization(all_data, num_dimention)
###前処理② 教師データおよび未知データを別々に前処理
train_data = standardization( train_data, num_element)
analy_data = standardization( analy_data, num_element)
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。