回答率: 85.30%

質問するログイン新規登録

トップ NumPyに関する質問機械学習でのデータ標準化の方法について

編集履歴

回答編集履歴

3

edit

2018/07/05 23:21

投稿

スコア8562

answer CHANGED Viewed

@@ -4,7 +4,7 @@
 予測しようとしているデータの分布によるんじゃないですか？
 もともとlogで分布しているものから平均と分散をいじっても正規分布にならないじゃないですか。
-モデルに学習させるときに正規分布が必要なので。
+それでも、モデルに学習させるときに正規分布が必要なので、うまい変換を施します。
 x=e^xの変数変換の末に標準分布になるケースがある、ということなら納得できますか？

2

edit

2018/07/05 23:21

投稿

スコア8562

answer CHANGED Viewed

@@ -6,4 +6,24 @@
 もともとlogで分布しているものから平均と分散をいじっても正規分布にならないじゃないですか。
 モデルに学習させるときに正規分布が必要なので。
-x=e^xの変数変換の末に標準分布になるケースがある、ということなら納得できますか？
+x=e^xの変数変換の末に標準分布になるケースがある、ということなら納得できますか？
+```python
+import numpy as np
+from numpy.random import lognormal
+import matplotlib.pyplot as plt
+fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1)
+s = lognormal(size=1000)
+ls = np.log(s)
+ns = (s - s.mean()) / s.std()
+nls = (ls - ls.mean()) / ls.std()
+def p(ax, s):
+  ax.hist(s, bins=np.linspace(s.min(), s.max(), 100))
+p(ax1, s)
+p(ax2, ns)
+p(ax3, ls)
+p(ax4, nls)
+plt.show()
+```

1

edit

2018/07/05 23:20

投稿

スコア8562

answer CHANGED Viewed

@@ -1,4 +1,5 @@
 https://www.kaggle.com/yww061851/data-preprocessing
+http://forums.fast.ai/t/data-pre-processing-for-the-input-having-very-small-values/13656
 予測しようとしているデータの分布によるんじゃないですか？