kerasでニューラルネット（正解データの正規化の必要性）

下記のようにデータを生成し、学習させました。
結果としては、正常に動作しましたが、中間層の数を増やすと、loss=nanとなります。

質問1：これは勾配爆発が起きているということでしょうか？
質問2：正解データ（y_train/y_test）の方も正規化させて、学習させると、正常に学習が進行しました。予測値の算出は、正規化された値から、元の値を復元して算出していますが、このように、正解データ（y_train/y_test）も正規化させるという方法は一般的でしょうか？
質問3：正解データ（y_train/y_test）は正規化させないで、SGDからAdamに変えてやると、学習は正常に進行します。勾配の更新方法の違いだと思いますが、Adamでも正解データ（y_train/y_test）を正規化させた方がいいでしょうか？

入力データ（X_train/X_test）を正規化させる必要があることは知っていましたが、正解データ（y_train/y_test）の方の正規化の必要性に関しては聞いたことがなく。。。ご教示お願い致します。

# 連続値データの読み込み
from sklearn.datasets import load_boston
boston = load_boston()

# 訓練データとテストデータに分ける
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(boston['data'], boston['target'], test_size=0.3,  random_state=0)

# 正規化（Normarization）
from sklearn.preprocessing import MinMaxScaler
scaler_x = MinMaxScaler()
X_train_n = scaler_x.fit_transform(X_train)
X_test_n = scaler_x.transform(X_test)

# 基本モデル生成
from keras.models import Sequential
model = Sequential()

# 層の追加
from keras.layers import Dense
# 中間層
model.add(Dense(128, activation='relu' # 活性化関数))
# 出力層
model.add(Dense(1, activation='linear' # 活性化関数))

# モデルの学習設定
from keras import losses
from keras import optimizers
model.compile(
    loss=losses.mean_squared_error,# 平均二乗誤差
    optimizer=optimizers.SGD(lr=0.01),# 確率的勾配降下法
)

# モデルの学習
result = model.fit(
    X_train_n,
    y_train_n,
    epochs=100
)

行動規範の内容に同意します

回答1件

ベストアンサー

質問1：これは勾配爆発が起きているということでしょうか？
隠れ層増加によるNaN発生@stackoverflowによれば、

層を追加することで勾配が不安定になり、結果としてNaNになりうる

だそうですので、答えは恐らくYesです。

対策:

xavier initializerによって解決できる可能性がある
バッチサイズと学習率を下げれば何とかなるかもしれない

質問2：正解データ（y_train/y_test）も正規化させるという方法は一般的でしょうか？
回帰問題で正解データを正規化する、という操作を私は初耳ですが、前例はあるようです。

回帰させる値の範囲が0～1000のような広い範囲より0～1に押し潰した方が回帰線を計算したときの誤差が小さいからです。ぜひやってください。

だそうです。

質問3：(要旨:正規化させなくてもAdamならうまくいくが)Adamでも正解データ（y_train/y_test）を正規化させた方がいいでしょうか？
質問2の答えから察するに「やった方がいいけれども、やらなくてもうまくいくしそうそうlossが変わらないなら無駄かも」が当たり所と思われます。
何より、こういうデータは少ないですので、可能でしたら試行してぜひとも結果を共有いただければと思います。

投稿2020/01/03 18:41