python3.x pandas 欠損データのある行列で、数値の穴埋めをせずに標準化(正規化)したい

前提・実現したいこと

pythonのライブラリのpandasのDataFrameを用いて以下のような欠損データのある行列をゼロ埋めなどをせずに標準化(正規化)したいです。

発生している問題・エラーメッセージ

１．通常の欠損データがないcsvファイルに当てている事と同様のことをしても
値が保持されず空欄のままcsvで出力されてしまいます。

２.通常の行列であればpandasの機能（df.values.std()など）で行列全体の中での標準偏差や平均、最大値を返してくれることができるのですが、欠損のある行列だと、

In[]print(df.values.std())
    print(df.values.mean())
    print(df.values.max())

Out[]nan
     nan
     nan

となってしまっており、うまく行列全体の平均や標準偏差の値などを取得できていないようです

該当のソースコード

欠損データのない行列に関しては

df=pd.read_csv("test.csv",header=None)
df_standard=(df - df.values.mean()) / (df.values.std())
df_standard.to_csv("test_standard.csv")

で行列全体を標準化できます

また、今回のtest.csvは

125.45,16252,0.032108,1.001,0,255
,333,,44,1,6
,,,243,2,4
,,,1,3,7
,,,1,4,
,,,-111,5,

です。
ですが、欲を言えば行数が異なる他のcsvファイルにも解決策が適用できるようにしたいです

補足情報（FW/ツールのバージョンなど）

pandas==0.25.1
numpy==1.17.2
scipy==1.3.1
scikit-learn==0.21.3
Python 3.7.3

行動規範の内容に同意します

回答2件

.values を削除する

df_standard=(df - df.mean()) / (df.std())

投稿2019/11/28 11:34

WathMorks

総合スコア1582

hayataka2049

2019/11/28 11:40

DataFrameの統計メソッドだと列方向処理なので、質問文とはやっていることが違うのでは？（どっちが本当にやりたいことなのかまではわかりませんが）

WathMorks

2019/11/28 11:57

その場合は転置すればOKです

WathMorks

2019/11/28 11:58

axisを指定しても構いません。

WathMorks

2019/11/28 12:01

pandasのmean等はデフォルトでnanmeanと同じですから、特に何もする必要はありません。 nanのある列や行の平均を計算したくないときは（skipnan=False)を指定します。

hayataka2049

2019/11/28 12:09

numpy.meanのだと、特にaxisを指定しなかった場合の挙動は > Axis or axes along which the means are computed. The default is to compute the mean of the flattened array. > https://docs.scipy.org/doc/numpy/reference/generated/numpy.mean.html になりますが、それはこの回答の方法（あるいは転置したりpandasでaxisを指定したり）で得られる結果とは違うのでは？

WathMorks

2019/11/28 12:19

pandasはデフォルトで「nanを無視して計算する」という意味です。 numpyと比較したのが誤りでした。

hayataka2049

2019/11/28 13:01

valuesはnumpy配列として返りますから、この回答の方法では質問文のコードとは異なったことをしていることになるという指摘でした。欠損のない配列で試すとすぐにわかることです。

行動規範の内容に同意します