pandas.Dataframe.mean()の結果で「nan」もしくは「0.0」が出力される

Question

### 前提
・pythonのpandasを用いて機械学習の前処理をおこなっている際に問題が発生
・pandas.Dataframe.mean()を用いてpandasの各columnの平均値の取得を試みた

### 課題
・一部のcolumnでの結果が平均値ではなく「nan」もしくは「0.0」となった
　(※Dataframeは458913行179列)

### 知りたいこと
・pandas.Dataframe.mean()の結果で「nan」もしくは「0.0」が出力される理由と正しい結果を取得する方法

### データ
データセット　Kaggle - American Express - Default Prediction
https://www.kaggle.com/datasets/munumbutt/amexfeather

### 実行したコード
```python
## データの読み込み
for data in ["test", "train"]:
    df = pd.read_feather(f'../input/amexfeather/{data}_data.ftr')    
    df = df.groupby('customer_ID').tail(1).set_index('customer_ID')
    if data == "test":
        df_test = df
    else:
        df_train = df

del df
gc.collect()

categorical = ['B_30', 'B_38', 'D_114', 'D_116', 'D_117', 'D_120', 'D_126', 'D_63', 'D_64', 'D_66', 'D_68']

df_train.drop(categorical, axis="columns", inplace=True)
df_test.drop(categorical, axis="columns", inplace=True)

## 問題発生部分
df_train.mean()

```

### 出力結果

```python

df_train.mean()

P_2            NaN
D_39           NaN
B_1       0.000000
B_2            NaN
R_1       0.000000
S_3            NaN
D_41      0.000000
B_3            NaN
D_42      0.177979
D_43      0.000000
D_44      0.000000
B_4            NaN
D_45           NaN
B_5       0.000000
R_2       0.000000
D_46           NaN
D_47           NaN
D_48           NaN
D_49      0.191162
B_6            NaN
B_7            NaN
B_8            NaN
D_50      0.000000
D_51           NaN
B_9            NaN
R_3       0.000000
D_52           NaN
P_3            NaN
B_10           NaN
D_53      0.000000
S_5       0.000000
B_11      0.000000
S_6            NaN
D_54           NaN
R_4       0.000000
S_7            NaN
B_12      0.000000
S_8            NaN
D_55           NaN
D_56      0.000000
B_13      0.000000
R_5       0.000000
D_58           NaN
S_9       0.000000
B_14      0.000000
D_59           NaN
D_60           NaN
D_61           NaN
B_15      0.000000
S_11           NaN
D_62           NaN
D_65      0.000000
B_16           NaN
B_17           NaN
B_18           NaN
B_19           NaN
B_20           NaN
S_12           NaN
R_6       0.000000
S_13           NaN
B_21      0.000000
D_69           NaN
B_22      0.000000
D_70      0.000000
D_71      0.000000
D_72      0.000000
S_15           NaN
B_23           NaN
D_73      0.170654
P_4       0.000000
D_74           NaN
D_75           NaN
D_76      0.143066
B_24      0.000000
R_7            NaN
D_77      0.000000
B_25      0.000000
B_26      0.000000
D_78      0.000000
D_79      0.000000
R_8       0.000000
R_9       0.252930
S_16      0.000000
D_80      0.000000
R_10      0.000000
R_11      0.000000
B_27      0.000000
D_81      0.000000
D_82      0.000000
S_17      0.000000
R_12           NaN
B_28           NaN
R_13      0.000000
D_83      0.000000
R_14           NaN
R_15      0.000000
D_84      0.000000
R_16      0.000000
B_29      0.046021
S_18      0.000000
D_86      0.000000
D_87      1.000000
R_17      0.000000
R_18      0.000000
D_88      0.208130
B_31           NaN
S_19      0.000000
R_19      0.000000
B_32      0.000000
S_20      0.000000
R_20      0.000000
R_21      0.000000
B_33           NaN
D_89      0.000000
R_22      0.000000
R_23      0.000000
D_91      0.000000
D_92      0.000000
D_93      0.000000
D_94      0.000000
R_24      0.000000
R_25      0.000000
D_96      0.000000
S_22           NaN
S_23           NaN
S_24           NaN
S_25           NaN
S_26      0.000000
D_102          NaN
D_103          NaN
D_104          NaN
D_105          NaN
D_106     0.222290
D_107          NaN
B_36      0.000000
B_37      0.000000
R_26      0.087769
R_27           NaN
D_108     0.072083
D_109     0.000000
D_110     0.746582
D_111     0.886230
B_39      0.320068
D_112          NaN
B_40           NaN
S_27           NaN
D_113          NaN
D_115          NaN
D_118          NaN
D_119          NaN
D_121          NaN
D_122          NaN
D_123     0.000000
D_124          NaN
D_125     0.000000
D_127     0.000000
D_128          NaN
D_129          NaN
B_41      0.000000
B_42      0.110535
D_130          NaN
D_131     0.000000
D_132     0.209473
D_133     0.000000
R_28      0.000000
D_134     0.341553
D_135     0.029068
D_136     0.246826
D_137     0.014122
D_138     0.158936
D_139          NaN
D_140     0.000000
D_141          NaN
D_142     0.000000
D_143          NaN
D_144     0.000000
D_145     0.000000
target    0.258934
dtype: float64

```
![イメージ説明](https://ddjkaamml8q8x.cloudfront.net/questions/2022-09-23/1a6b6f67-2d3f-4473-a556-dd62639a05d4.png)

### 試したこと

・fillna()を利用してNaN値をすべて適当な値で埋めたうえでmean()を利用する　⇒　結果変わらず
・mean(skipna=True)で平均値算出　⇒　結果変わらず

### 補足情報（FW/ツールのバージョンなど）
S_2の日付データ以外は全てastypeで数値データに変換済み
上記のコードは全てKaggleのnotebook環境で実行(2022年9月22日時点)

お知恵をお貸しいただけますと大変幸いです。

Accepted Answer

原因は列の型が`float16`だからです。これは`print(df_train['P_2'].dtype)`などとすることで確認できます。
おそらく読込元のファイルはサイズ節約のためにこの型で格納しているのだと思います。
この型は有効桁数が3、最大も65000程度までしか表現できませんので各行の値はその範囲内に収まっていても、合計を計算した時点で`inf`になり、その結果平均は`nan`になります。

対策としては大規模データを処理する場合は、メモリ使用量とのかねあいもありますが`float64`など十分なサイズの型に変換するとよいでしょう。
以下単純例での再現コードです。
```Python
import pandas as pd
import numpy as np

df = pd.DataFrame({'v':[1.0 for _ in range(70000)]})

print(df['v'].dtype) # float64
print(df['v'].mean())# 1.0

df['v'] = df['v'].astype('float16')
print(df['v'].sum()) # inf
print(df['v'].mean())# nan

print(np.finfo('float16'))
"""
Machine parameters for float16
---------------------------------------------------------------
precision =   3   resolution = 1.00040e-03
machep =    -10   eps =        9.76562e-04
negep =     -11   epsneg =     4.88281e-04
minexp =    -14   tiny =       6.10352e-05
maxexp =     16   max =        6.55040e+04
nexp =        5   min =        -max
---------------------------------------------------------------
"""
```
`float64`変換後
```PlainText
                 P_2          D_39            B_1           B_2           R_1  \
count  455944.000000  4.589130e+05  458913.000000  4.588820e+05  4.589130e+05   
mean        0.635249  2.014894e-01       0.139027  5.916118e-01  1.073955e-01   
std         0.267547  4.021555e-01       0.231267  4.121448e-01  2.786378e-01   
min        -0.458984  5.960464e-08      -3.570312  1.788139e-07  5.960464e-08   
25%         0.449219  4.783630e-03       0.008987  7.092285e-02  2.956390e-03   
50%         0.682617  9.559631e-03       0.033234  8.134766e-01  5.920410e-03   
75%         0.862305  2.666016e-01       0.153687  1.001953e+00  8.888245e-03   
max         1.009766  5.000000e+00       1.324219  1.009766e+00  2.759766e+00   
```

前提

課題

知りたいこと

データ

実行したコード

出力結果

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問