条件つきでの欠損値を埋められない

前提・実現したいこと

条件つきでのjob列のデータを埋めたいです。

AgeGroup	job
boy	Nan
Young	Nan
boy	student
Senior	worker
Adult	worker
Adult	Nan
Young	student

　表は一部です。

agegroupを見て
'boy'ならboyごとのjobの最頻値
'Young'ならboyごとのjobの最頻値
'Adult'ならAdultごとのjobの最頻値
'Senior'ならSeniorごとのjobの最頻値
'Older'ならOlderごとのjobの最頻値

以下のソースコードを書きましたが埋まりませんでした。agegroupには欠損値はありません

該当のソースコード

pyhton
1
2labels=['boy','Young','Adult','Senior','Older']
3＃一つ目
4for x in labels:
5    train['job'].fillna(train[train['AgeGroup']==x]['job'].mode())
6
7＃二つ目
8for x in range(len(train)):
9    agegroup=train[x]['AgeGroup']
10    train.loc[(train['job'].isnull())&(train['AgeGroup']==　agegroup), 'job'] =train['job'][agegroup].mode()
11
12＃三つ目
13for x in labels:
14    train.loc[(train.isnull()) &(train['AgeGroup']==x ),'job']=train[x][job].mode()

行動規範の内容に同意します

回答1件

ベストアンサー

地道な感じですが、最頻値は別途集計しておいて、apply()を使って埋めていくというのはあるかなと思います。

import pandas as pd

########## 入力

data = [
    ["boy", None],
    ["Young", None],
    ["boy", "student"],
    ["Senior", "worker"],
    ["Adult", "worker"],
    ["Adult", "worker"],
    ["Adult", "student"],
    ["Adult", None],
    ["Young", "student"]
]

df = pd.DataFrame(data, columns=['AgeGroup', 'job'])

########## 処理

# 最頻値を集計
mode_dict = {}
for label in df["AgeGroup"].unique():
    mode_dict[label] = df[df['AgeGroup'] == label]["job"].mode()[0]

print(mode_dict)
# => {'boy': 'student', 'Young': 'student', 'Senior': 'worker', 'Adult': 'worker'}

# None等なら最頻値を埋める
df['job2'] = df.apply(lambda x: x['job'] if x['job'] else mode_dict[x['AgeGroup']], axis=1)

print(df)
"""
  AgeGroup      job     job2
0      boy     None  student
1    Young     None  student
2      boy  student  student
3   Senior   worker   worker
4    Adult   worker   worker
5    Adult   worker   worker
6    Adult  student  student
7    Adult     None   worker
8    Young  student  student
"""

投稿2019/08/11 06:26