pymcでベイズ線形回帰

pymc3でベイズ線形回帰を行いたいのですが、ベイズモデルにおいても通常の機械学習と同様にトレーニングデータでモデリングを行い、テストデータで検証するという手順で良いのでしょうか。

多くのサイトにモデリングの方法は書いているのですが、予測の方法が分かりません。
pymc3のsample_posterior_predictiveというのがあるようなのですが、これを用いるのでしょうか。

私が想定している流れとしては
1.トレーニングデータを用いてモデルのパラメータの事後分布を推定
2.事後分布からサンプリングを行い、パラメータの平均値を算出
3.2で求めたパラメータの平均値をモデルのパラメータとし、テストデータで予測可能か検証を行う。
だと考えているのですが、これは正しいでしょうか。

以下のリンクではトレーニング・テストに分割し、行っているようです。
リンク内容

行動規範の内容に同意します

回答1件

ベイズモデルにおいても通常の機械学習と同様にトレーニングデータでモデリングを行い、テストデータで検証するという手順で良いのでしょうか。

モデルの検証方法の1つとしては良いですが計算量はそれなりに必要です。モデルの検証には情報量基準としてDICを計算するpm.dic()があります。

多くのサイトにモデリングの方法は書いているのですが、予測の方法が分かりません。

pymc3のsample_posterior_predictiveというのがあるようなのですが、これを用いるのでしょうか。

例えばy=ax+bと言うモデルがあり観測データ(x_i, y_i)からa,bを推定したいとします。ベイズ線形回帰ではこのモデルはy ~ N(mu=ax+b, sigma=err)のように分布として与えられ、推定結果であるa,bも分布になります。

質問にある「予測値」とは分布になります。sample_posterior_predictive()はこの分布からサンプルを抽出するための関数です。別の言い方をすると、仮にテストケースとしてxに1つの値を入れたとしても、yは分布として得られることになります。したがって分布から1点だけ代表値として選びたい(点推定)となればpm.find_MAP()により最大事後確率を求めることになります。

投稿2020/08/20 13:16