機械学習でのデータ標準化の方法について

Question

Kaggleにて機械学習の勉強中の初心者です。

特徴量が正規分布に従っていないと、予測に影響があるとのことで、
sklearn.preprocessing.StandardScaler クラスで標準化していました。

別なユーザーが作成したカーネルを見ると、np.log1pを使っていたりもするのですが、
どのような考えで使い分けたらよいのでしょうか。

Accepted Answer

https://www.kaggle.com/yww061851/data-preprocessing
http://forums.fast.ai/t/data-pre-processing-for-the-input-having-very-small-values/13656

予測しようとしているデータの分布によるんじゃないですか？

もともとlogで分布しているものから平均と分散をいじっても正規分布にならないじゃないですか。
それでも、モデルに学習させるときに正規分布が必要なので、うまい変換を施します。

x=e^xの変数変換の末に標準分布になるケースがある、ということなら納得できますか？

```python
import numpy as np
from numpy.random import lognormal
import matplotlib.pyplot as plt
fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1)

s = lognormal(size=1000)
ls = np.log(s)
ns = (s - s.mean()) / s.std()
nls = (ls - ls.mean()) / ls.std()

def p(ax, s):
  ax.hist(s, bins=np.linspace(s.min(), s.max(), 100))
p(ax1, s)
p(ax2, ns)
p(ax3, ls)
p(ax4, nls)
plt.show()
```

Answer

一般的な標準化、正規化であればStandardScalerでまったく構いません。

対数を取るというのは、まず思いつくのはデータのスケールが大きいとき使う手です。

また、logの関数自体は色々な分類アルゴリズムの内部では大活躍しています（色々なアルゴリズムの導出を見るとたくさんでてくる）。逆に言うと、自分でわざわざ対数を取ることはあまりありませんが・・・。

あとは、まったくそういうのとは関係なく、データが指数的な性質を持っているときに対数変換して回帰する、というのはあるそうなので、そっちかもしれません。それについては、以下を参考にしてください。

[対数変換を行う意味について。回帰分析において対数変換する背景にある前提とは？ | アタリマエ！](https://atarimae.biz/archives/13161)
[回帰分析②：線形回帰が使えないときに用いる高度な回帰分析方法 – 医療政策学×医療経済学](https://healthpolicyhealthecon.com/2016/09/08/regression-2/)

関連した質問