質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2734閲覧

機械学習に用いるデータの前処理について教えてください

drken35

総合スコア16

Keras

Kerasは、TheanoやTensorFlow/CNTK対応のラッパーライブラリです。DeepLearningの数学的部分を短いコードでネットワークとして表現することが可能。DeepLearningの最新手法を迅速に試すことができます。

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

5クリップ

投稿2018/02/07 00:49

編集2018/02/07 04:34

いま、kerasとTensorflowを用いて多クラス分類に取り組んでいて、
学習に使用するデータをまとめ終えたところです。
このあと、データを標準化してネットワークに流すような段取りなんですが
用意した説明変数群のいくつかの項目が、一様分布だったり、明らかに正規分布ではなさそうな形状です。
これらにも標準化を施していいのでしょうか

参考書やウェブサイトを色々と見てみたのですが
「ディープラーニングなどでは正規化はあまり用いない。効果が薄い、あるいは逆効果になる」と書かれていることが多く
また「説明変数のひとつは背番号のような一様分布のカテゴリ変数なので標準化ではなく正規化しましょう」などと書いてあるものを見つけられませんでした。

ということは「分布形状は無視し、とりあえずすべて標準化する」でいいんでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

そこまで手間ではないと思うのですが、全てのパターン、標準化ありなしなどをお試しになって良いものを選択してはいかがでしょうか。

学習はデータ依存性の方が強く、データにあった処理を施すべきです。
それを考えるプロというのがデータサイエンティストなどというものではないでしょうか。

何も情報がない中での一般論なら標準化すべきとしか言えません。

投稿2018/02/07 05:20

mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

drken35

2018/02/07 06:10

返信ありがとうございます 今回の質問は「データが正規分布に従う前提で行われるべき標準化」を非正規分布のデータにも適用していいのかどうか、です 一般論では非正規分布データの標準化は行わないと思うのですが、機械学習では何らかの機構が作用し、標準化しても問題ないのでしょうか (たとえば回帰系では問題になる多重共線性がディープラーニング等ではほぼ問題ない、などのような)
mkgrei

2018/02/07 07:50

二値に分離しているような極端な例でなければ標準化してもしなくてもあまり変わらないように思います。 他のパラメータをちゃんとチューニングしてあればですが。 教科書に載っているような良い性質の問題であれば、標準化は有効に見えますが、現実の複雑なデータに適用すると、まあまあ心なし程度のことの方が多く感じます。 スコアの値を重視する場合、標準化することで「改善」が得られるかもしれませんが、モデルとしては本質的ではないように思います。 そこで上記の回答に繋がるのですが、意味合いが大事であれば、非正規分布データは標準化すべきではありません。 それでも行うとすれば、標準化によって何かの定量指数を改善できたかどうかに関わっているはずなので、いろいろと試してみて、改善するのであれば実用上使ってしまうことが考えられます。
drken35

2018/02/07 10:50

なるほど、あまり変わらないのですね。 また、こちらでも質問後あれこれ調べていたのですが (1):各変数が等しい範囲内に収まっている(一般には-1~1) (2):正規化するとズレるタイプのデータは各値間の距離を保ったまま(1)の範囲内にスケール変換する で、概ね問題ないらしいことがわかりました。 その上で、各手法をいろいろ組み合わせて実験してみたいと思います。 実践的なご意見を拝聴できて勉強になりました ありがとうございました
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問