質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

2回答

4210閲覧

Python: pandasで条件付きでfillnaしたいが反映されない

PhysConsultant

総合スコア10

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

1クリップ

投稿2019/12/12 18:26

  1. PythonのPandasライブラリで欠損値の穴埋めをしたい。

データの整理をするうえで、欠損補完で詰まりました。
何列かあるDataFrameを作りました。何列かある中で、
SUUJI列の欠損を埋めるのに、各ID列ごとの平均を出して
その値で、各ID列の欠損を埋めたいと考えています。

  1. 利用するDataFrameの部分

例えば、
・CATEGORY=1の欠損については、(1.0+2.5)/2の値で埋める。
・CATEGORY=2の欠損については、(0.9+0.4+0.3)/3の値で埋める。
ということをしたいのです。

CATEGORYSUUJI
11.0
12.5
1NaN
20.9
2NaN
20.4
20.3

3.書いたスクリプト
以下のスクリプトでfillnaの結果が反映されません。
最後の行を、inplace=Falseにしてprintすると、埋められているdfが出力されるのですが
inplace=Trueのもとでは、df表示させても欠損値が補完されていません。

for i in df['CATEGORY'].unique().tolist(): val2 = df[df['CATEGORY']==i]['SUUJI'].mean() print(val2) df[df['CATEGORY']==i]['SUUJI'].fillna(value=val2,inplace=True)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

わたしもnomukenさんが書かれているように groupby() を使うのが良いかと思いますが、現状の方法でやりたいのであれば

まずは、
df[df['CATEGORY']==i]['SUUJI']
の箇所を
df.loc[df['CATEGORY']==i,'SUUJI']
とする必要があります。

前者は元のデータフレームの部分コピーが作成される可能性がありますので、コピーされたデータフレームに対していくら修正を行っても元のデータフレームは全く変更されない事になります。
後者はの場合は元のデータフレームのViewとして扱われますので、Viewに対する変更は元のデータフレームにも反映されます。

ただ、残念なことに上記の修正を行い

Python

1df.loc[df['CATEGORY']==i,'SUUJI'].fillna(value=val2, inplace=True)

としても動作しないようです。
原因の詳細は詳しく追っていので解かっていないのですが、経験上Viewに対してのinplace=Trueの操作は動作しません。(原因の詳細がわかる方おりりましたらコメントお願いします)
ですので、inplace=True を諦めて

Python

1for i in df['CATEGORY'].unique().tolist(): 2 val2 = df[df['CATEGORY']==i]['SUUJI'].mean() 3 df.loc[df['CATEGORY']==i,'SUUJI'] = df.loc[df['CATEGORY']==i,'SUUJI'].fillna(value=val2)

のように記述することで問題なく動作すると思います
あとは ループを使う場合でも groupby()を使って

Python

1for grp, data in df.groupby('CATEGORY'): 2 val2 = data['SUUJI'].mean() 3 df.loc[df['CATEGORY']==grp,'SUUJI'] = data['SUUJI'].fillna(value=val2)

のように書くこともできます。

投稿2019/12/13 01:16

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

こんな感じでしょうか。

Python

1import pandas as pd 2import numpy as np 3 4df = pd.DataFrame({'CATEGORY':[1, 1, 1, 2 , 2, 2, 2],'SUUJI':[1.0, 2.5, np.nan, 0.9, np.nan, 0.4, 0.3]}) 5 6print(df) 7""" 8 CATEGORY SUUJI 90 1 1.0 101 1 2.5 112 1 NaN 123 2 0.9 134 2 NaN 145 2 0.4 156 2 0.3 16""" 17 18df['SUUJI'] = df.groupby('CATEGORY').transform(lambda x: x.fillna(x.mean()))['SUUJI'] 19""" 20 CATEGORY SUUJI 210 1 1.000000 221 1 2.500000 232 1 1.750000 243 2 0.900000 254 2 0.533333 265 2 0.400000 276 2 0.300000 28""" 29 30print(df)

参考サイト:Pandas: groupby()してグループ単位で値補完

投稿2019/12/12 23:10

nomuken

総合スコア1627

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問