質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.47%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

Q&A

解決済

1回答

2614閲覧

statsmodelの欠損値補完モジュールのエラー回避方法

R.Shigemori

総合スコア3376

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

0グッド

0クリップ

投稿2019/01/31 01:04

前提・実現したいこと

欠損値補完方法である多重代入法をサポートするstatsmodels.imputation.miceを用いたコードを書いています。
私は複数台のPCを有しており、あるPCではうまく補完ができることまでは確認できました。そこで、補完性能を確認するために他方のPCにコードを移植して実行したところ、エラーが発生しており、原因と回避策を知りたく思います。

発生している問題・エラーメッセージ

発生したエラーメッセージは以下です。
メッセージよると、DataFrameオブジェクトに'update_all'というアトリビュートはないとことなのですが、私自身、DataFrameにupdate_allというメソッドがあるという認識がないので、なぜ、こうしたエラーが発生しているのかが見当がつかない状態です。

AttributeError Traceback (most recent call last) <ipython-input-9-30e0dc721bec> in <module> 3 4 MICE_Model = mice.MICE(model_formula='math score ~ reading score',model_class=sm.OLS,data=tmp) ----> 5 MICE_Model.fit(10,100) ~\Anaconda3\lib\site-packages\statsmodels\imputation\mice.py in fit(self, n_burnin, n_imputations) 1229 1230 # Run without fitting the analysis model -> 1231 self.data.update_all(n_burnin) 1232 1233 for j in range(n_imputations): ~\Anaconda3\lib\site-packages\pandas\core\generic.py in __getattr__(self, name) 5055 if self._info_axis._can_hold_identifiers_and_holds_name(name): 5056 return self[name] -> 5057 return object.__getattribute__(self, name) 5058 5059 def __setattr__(self, name, value): AttributeError: 'DataFrame' object has no attribute 'update_all'

該当のソースコード

python

1import statsmodels.imputation.mice as mice 2import statsmodels.api as sm 3 4tmp = missing_cont_data[['math score','reading score']] 5MICE_data = mice.MICEData(tmp) 6 7MICE_Model = mice.MICE(model_formula='math score ~ reading score',model_class=sm.OLS,data=tmp) 8MICE_Model.fit(10,100)

試したこと

正常に処理できたPCとエラーが発生したPCの環境の問題かと思い、statsmodelsとpandasのバージョンは揃えました。
おそらく、他にもそろえるべきものがある気がしますが、上記のエラーメッセージでは対象が絞り込めないので未実施です。

補足情報(FW/ツールのバージョンなど)

処理対象のデータを一部示します。

'math score','reading score','writing score'
72, 72, 74
69, 90, 88
90, 95, 93
47, 57, 44

先のコードには記載していませんが、上記のCSVファイルをpandasのread_csvで読み込んで処理しています。また、欠損値は元にデータにはなく、プログラムにてnp.nanを埋め込んでいます。(真値とmiceによる補完値を比較するため)

その他の関連しそうな情報は以下です。
os : windows10(64bit)
python : 3.6系
statsmodel : 0.9.0
pandas : 0.22.0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

wwbQzhMkhhgEmhU

2019/02/01 16:56

よく分かってないのですが、mice.MICE()で引数dataに指定すべきは、MICE_dataではないですか? また、式を指定する際の変数名にスペースを入れるのは出来ないような気がします。 math score -> math_score reading score -> reading_score などに変更した方がいいかもしれないという話です。 ただ私このパッケージのことは何も知らないので、間違ってたらごめんなさい。
R.Shigemori

2019/02/01 20:39

ありがとうございます。 直接的な原因はご指摘のとおりに関数に入力するデータの誤りでした。また、statsmodelsの仕様で変数にスペースが含まれているとエラーが発生することも確認できました。(pandasでデータ加工している際には問題にならなかったので、意識していなかったことが要因です)
guest

回答1

0

自己解決

単純なミスでした。
以下で動作確認できました。

MICE_data = mice.MICEData(missing_cont_data[['math_score','reading_score']]) MICE_Model = mice.MICE(model_formula='math_score ~ reading_score',model_class=sm.OLS,data=MICE_data) MICE_Model.fit(10,100)

投稿2019/02/01 20:43

R.Shigemori

総合スコア3376

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.47%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問