機械学習に用いるデータの前処理について教えてください

いま、kerasとTensorflowを用いて多クラス分類に取り組んでいて、
学習に使用するデータをまとめ終えたところです。
このあと、データを標準化してネットワークに流すような段取りなんですが
用意した説明変数群のいくつかの項目が、一様分布だったり、明らかに正規分布ではなさそうな形状です。
これらにも標準化を施していいのでしょうか

参考書やウェブサイトを色々と見てみたのですが
「ディープラーニングなどでは正規化はあまり用いない。効果が薄い、あるいは逆効果になる」と書かれていることが多く
また「説明変数のひとつは背番号のような一様分布のカテゴリ変数なので標準化ではなく正規化しましょう」などと書いてあるものを見つけられませんでした。

ということは「分布形状は無視し、とりあえずすべて標準化する」でいいんでしょうか？

行動規範の内容に同意します

回答1件

ベストアンサー

そこまで手間ではないと思うのですが、全てのパターン、標準化ありなしなどをお試しになって良いものを選択してはいかがでしょうか。

学習はデータ依存性の方が強く、データにあった処理を施すべきです。
それを考えるプロというのがデータサイエンティストなどというものではないでしょうか。

何も情報がない中での一般論なら標準化すべきとしか言えません。

投稿2018/02/07 05:20

mkgrei

総合スコア8560

drken35

2018/02/07 06:10

返信ありがとうございます今回の質問は｢データが正規分布に従う前提で行われるべき標準化｣を非正規分布のデータにも適用していいのかどうか、です一般論では非正規分布データの標準化は行わないと思うのですが、機械学習では何らかの機構が作用し、標準化しても問題ないのでしょうか (たとえば回帰系では問題になる多重共線性がディープラーニング等ではほぼ問題ない、などのような)

mkgrei

2018/02/07 07:50

二値に分離しているような極端な例でなければ標準化してもしなくてもあまり変わらないように思います。他のパラメータをちゃんとチューニングしてあればですが。教科書に載っているような良い性質の問題であれば、標準化は有効に見えますが、現実の複雑なデータに適用すると、まあまあ心なし程度のことの方が多く感じます。スコアの値を重視する場合、標準化することで「改善」が得られるかもしれませんが、モデルとしては本質的ではないように思います。そこで上記の回答に繋がるのですが、意味合いが大事であれば、非正規分布データは標準化すべきではありません。それでも行うとすれば、標準化によって何かの定量指数を改善できたかどうかに関わっているはずなので、いろいろと試してみて、改善するのであれば実用上使ってしまうことが考えられます。

drken35

2018/02/07 10:50

なるほど、あまり変わらないのですね。また、こちらでも質問後あれこれ調べていたのですが (1):各変数が等しい範囲内に収まっている(一般には-1~1) (2):正規化するとズレるタイプのデータは各値間の距離を保ったまま(1)の範囲内にスケール変換するで、概ね問題ないらしいことがわかりました。その上で、各手法をいろいろ組み合わせて実験してみたいと思います。実践的なご意見を拝聴できて勉強になりましたありがとうございました

行動規範の内容に同意します