回答編集履歴

修正

2022/09/23 16:53

投稿

8524ba23

スコア38350

answer CHANGED Viewed

@@ -1,6 +1,6 @@
 原因は列の型が`float16`だからです。これは`print(df_train['P_2'].dtype)`などとすることで確認できます。
 おそらく読込元のファイルはサイズ節約のためにこの型で格納しているのだと思います。
-この型は最大でも65000程度までしか表現できませんので各行の値はその範囲内に収まっていても、合計を計算した時点で`inf`になり、その結果平均は`nan`になります。
+この型は有効桁数が3、最大も65000程度までしか表現できませんので各行の値はその範囲内に収まっていても、合計を計算した時点で`inf`になり、その結果平均は`nan`になります。
 対策としては大規模データを処理する場合は、メモリ使用量とのかねあいもありますが`float64`など十分なサイズの型に変換するとよいでしょう。
 以下単純例での再現コードです。
@@ -30,3 +30,15 @@
 ---------------------------------------------------------------
 """
 ```
+`float64`変換後
+```PlainText
+                 P_2          D_39            B_1           B_2           R_1  \
+count  455944.000000  4.589130e+05  458913.000000  4.588820e+05  4.589130e+05
+mean        0.635249  2.014894e-01       0.139027  5.916118e-01  1.073955e-01
+std         0.267547  4.021555e-01       0.231267  4.121448e-01  2.786378e-01
+min        -0.458984  5.960464e-08      -3.570312  1.788139e-07  5.960464e-08
+25%         0.449219  4.783630e-03       0.008987  7.092285e-02  2.956390e-03
+50%         0.682617  9.559631e-03       0.033234  8.134766e-01  5.920410e-03
+75%         0.862305  2.666016e-01       0.153687  1.001953e+00  8.888245e-03
+max         1.009766  5.000000e+00       1.324219  1.009766e+00  2.759766e+00
+```