https://www.kaggle.com/yww061851/data-preprocessing
http://forums.fast.ai/t/data-pre-processing-for-the-input-having-very-small-values/13656
予測しようとしているデータの分布によるんじゃないですか?
もともとlogで分布しているものから平均と分散をいじっても正規分布にならないじゃないですか。
それでも、モデルに学習させるときに正規分布が必要なので、うまい変換を施します。
x=e^xの変数変換の末に標準分布になるケースがある、ということなら納得できますか?
python
1import numpy as np
2from numpy.random import lognormal
3import matplotlib.pyplot as plt
4fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1)
5
6s = lognormal(size=1000)
7ls = np.log(s)
8ns = (s - s.mean()) / s.std()
9nls = (ls - ls.mean()) / ls.std()
10
11def p(ax, s):
12 ax.hist(s, bins=np.linspace(s.min(), s.max(), 100))
13p(ax1, s)
14p(ax2, ns)
15p(ax3, ls)
16p(ax4, nls)
17plt.show()
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/07/06 02:12