線形回帰の予測でエラーが出てしまう

Question

### 前提・実現したいこと

下記の参考サイトを参考にして不動産の価格をTensorFlowを使って予測しました。
https://www.codexa.net/tensorflow-for-begginer/

上記サイトではScikit-learnに組み込まれているデータセットを使用していますが、
今回はデータセットの内容をcsv形式にして読み込ませています。

学習がうまくいっていないのか最終的な予測値が出てきません。
もし、お分かりになる方がいらっしゃいましたらご教授いただけましたら幸いです。


### 発生している問題・エラーメッセージ

参考サイトと同様に進めているのですが、
コスト関数に関する箇所と最終的な不動産の価格の予測値がNaNと表示されてしまいます。
※使用しているコードはcsvの読み込みに関わる箇所以外は参考サイトと同じです。


### 該当のソースコード

```python
# show upload dialog
from google.colab import files
uploaded = files.upload()

# read data
import pandas as pd
import io
boston_data = pd.read_csv(io.StringIO(uploaded['boston.csv'].decode('utf-8')))
boston_data.head()

	CRIM	ZN	INDUS	CHAS	NOX	RM	AGE	DIS	RAD	TAX	PTRATIO	B	LSTAT	target
0	0.00632	18.0	2.31	0	0.538	6.575	65.2	4.0900	1	296.0	15.3	396.90	4.98	24.0
1	0.02731	0.0	7.07	0	0.469	6.421	78.9	4.9671	2	242.0	17.8	396.90	9.14	21.6
2	0.02729	0.0	7.07	0	0.469	7.185	61.1	4.9671	2	242.0	17.8	392.83	4.03	34.7
3	0.03237	0.0	2.18	0	0.458	6.998	45.8	6.0622	3	222.0	18.7	394.63	2.94	33.4
4	0.06905	0.0	2.18	0	0.458	7.147	54.2	6.0622	3	222.0	18.7	396.90	5.33	36.2

# テンソルフロー
import tensorflow as tf
 
# 計算やデータ処理のライブラリ
import numpy as np
import pandas as pd
 
# データ可視化のライブラリ
import matplotlib.pyplot as plt
 
# データセットの取得&処理のライブラリ
from sklearn.model_selection import train_test_split
 
# インポートの確認
print(tf.__version__)
print(np.__version__)
print(pd.__version__)

1.14.0
1.16.4
0.24.2

# 特徴量とターゲットに切り分け
X_data = np.array(boston_data[["CRIM","ZN","INDUS","CHAS","NOX","RM","AGE","DIS","RAD","TAX","PTRATIO","B","LSTAT"]])
y_data = np.array(boston_data["target"])


# １行目のデータの特徴量（X)とターゲット（y）を確認
print(X_data[0:1])
print(y_data[0:1])

[[6.320e-03 1.800e+01 2.310e+00 0.000e+00 5.380e-01 6.575e+00 6.520e+01
  4.090e+00 1.000e+00 2.960e+02 1.530e+01 3.969e+02 4.980e+00]]
[24.]

# 1を追加する前のサイズ
print(X_data.shape)
 
# 1を作成
ones = np.ones((506, 1))
 
# 1を追加
X_data = np.c_[ones, X_data]
X_data.shape

(506, 13)
(506, 14)

# 訓練データとテストデータへ切り分け
X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size=0.2, random_state=42)
y_train = y_train.reshape(404,1)
y_test = y_test.reshape(102,1)
 
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(404, 14)
(404, 1)
(102, 14)
(102, 1)


# 学習率とエポック（反復処理回数）
learning_rate = 0.01
training_epochs = 100
 
# 特徴量の数
n_dim = X_data.shape[1]
 
# 特徴量（X)とターゲット（y）のプレースホルダー
X = tf.placeholder(tf.float32,[None,n_dim])
Y = tf.placeholder(tf.float32,[None,1])
 
# 係数（W）と定数項（b）の変数
W = tf.Variable(tf.ones([n_dim,1]))
b = tf.Variable(0.0)

# 線形モデル
y = tf.add(b, tf.matmul(X, W))
 
# コスト関数
cost = tf.reduce_mean(tf.square(y - Y))
 
# 最適化
training_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost)

# 初期化
init = tf.global_variables_initializer()
 
 
# モデル訓練開始
sess = tf.Session()
sess.run(init)
 
for epoch in range(training_epochs):
    sess.run(training_step, feed_dict={X:X_train, Y:y_train})
    cost_history = np.append(cost, sess.run(cost, feed_dict={X:X_train, Y:y_train}))
    if epoch % 100 == 0:
        W_val = sess.run(W)
        b_val = sess.run(b)


# 誤差（cost）を確認
print(cost_history[0])

nan

# テストデータを使って予測
pred_test = sess.run(y, feed_dict={X: X_test})

pred = pd.DataFrame({"実際の不動産価格":y_test[:,0], "予測した不動産価格":pred_test[:,0]})
pred.head()


実際の不動産価格	予測した不動産価格
0	23.6	NaN
1	32.4	NaN
2	13.6	NaN
3	22.8	NaN
4	16.1	NaN

```

### 補足情報（FW/ツールのバージョンなど）

環境はgoogle colabで行っています。

Accepted Answer

データの正規化を行ってください。
データのスケール (単位) がバラバラのデータですと、線形回帰のような問題を解くのは難しくなります。

データとラベルに分けた直後に以下を入れて、正規化したところ、学習後の出力結果が NaN ではなく、値が出てくることが確認できました。

```python
from sklearn.preprocessing import scale

X_data = scale(X_data)
```

## 追記

cost を sess.run で計算した結果を cost_history 配列に追加していくなら
以下のようにするべきではないでしょうか。

```python
cost_history = []
for epoch in range(training_epochs):
    sess.run(training_step, feed_dict={X:X_train, Y:y_train})
    cost_history.append(sess.run(cost, feed_dict={X:X_train, Y:y_train})
    if epoch % 100 == 0:
        W_val = sess.run(W)
        b_val = sess.run(b)
```

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

補足情報（FW/ツールのバージョンなど）

追記

関連した質問