前提・実現したいこと
Python、統計学初心者の者です。
仕事の関係で、下記のことをPythonで実現したいと考えております。
① GLMを用いたポアソン回帰分析(単変量)を行う
② 上記の結果を散布図に表示する
発生している問題・エラーメッセージ
まず、お弁当の需要予測(https://signate.jp/competitions/24)のデータを用いて、
上記の手法をトライしました。
Python初心者で思い通りのコードを書くことはできないので、
インターネットからコードのコピペを組み合わせて試行錯誤しました。
(https://tanuhack.com/statsmodels-multiple-lra/
https://hk29.hatenablog.jp/entry/2018/05/14/023231
を参考にしました。)
無事結果が出ましたが、コードに誤りがないか自信がありません。
もし誤りがあればご教授いただければ幸いです。
該当のソースコード
Python
1# 1. 必要なライブラリの読み込み 2import pandas as pd 3import statsmodels.formula.api as smf 4import statsmodels.api as sm 5import matplotlib.pyplot as plt 6 7# 2. 使用するデータの読み込み 8df = pd.read_csv("Desktop/Pyhton memo/trainmoji.csv", encoding="shift-jis") 9 10# 3. smf.glmで使うformula(線形予測子)とfamily(確率分布)を設定する 11y = df['y'] 12x = pd.get_dummies(df[['temperature']]) # 説明変数には質的変数も代入できるようget_dummiesを使用 13family = sm.families.Poisson() 14 15x = sm.add_constant(x) 16 17# 4. 先ほどの設定値を使って一般化線形モデルを作成 18model = sm.GLM(y, x, family=family) 19 20# 5. 作成したモデルを学習させる 21result = model.fit() 22 23# 6. 結果の表示 24result.summary() 25 26# 7. AICを確認 27result.aic 28 29# 8. GLMによる予測値を取得 30 31pred = result.predict(x) 32df['pred'] = pred 33 34 35# 9. 散布図の作成 36 37plt.figure() 38plt.title('GLM scatter plot y---temperature ') 39plt.xlabel('temperature', fontsize=14) 40plt.ylabel('y', fontsize=14) 41plt.scatter(df.temperature, df.y, c='blue', label='Raw data') 42plt.scatter(df.temperature, df.pred, c='red', label='GLM') 43plt.legend(loc='lower right', fontsize=12) 44 45plt.show
補足情報(FW/ツールのバージョンなど)
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。