Pythonでモデル推定を行う方法

前提・実現したいこと

あるデータ群をPythonで非線形回帰問題を解こうとしています。
悩んでいるのは、モデルがどういう形をしているのかが想像できず、どこから始めればよいのかわかりません。
調べたところ機械学習や遺伝的アルゴリズムでモデルを推定できるなどがありました。
抽象的な質問で申し訳ないのですが、Pythonでモデル推定を行う方法を教えてください。

試したこと

プロットしてみたところ、y=x^2のような曲線を描いていましたが条件によって幅が変わってくるので単純なn次式では表せないと思われます。

行動規範の内容に同意します

回答2件

ベストアンサー

こだわりがなければ多項式回帰してしまえばよいのでは？　その場合はこんな感じで。

python
1from sklearn.linear_model import LinearRegression
2from sklearn.preprocessing import StandardScaler, PolynomialFeatures
3from sklearn.pipeline import Pipeline
4
5model = Pipeline([
6    ("scaler", StandardScaler()),
7    ("poly", PolynomialFeatures(degree=5)),
8    ("linear", LinearRegression())
9])
10
11# あとはmodel.fit(X_train, y_train)してmodel.predict(X_test)で予測できます

正則化にこだわりたいといった要求があればLinearRegression()の部分を正則化対応のモデルに置き換えれば良いです。

5次多項式くらいで大抵のものは行けると思いますが、Support Vector RegressionとかRandom Forest Regressionの方が性能が稼ぎやすいということはあるかもしれません。ただし、多項式回帰と違ってわかりやすいモデルは推定できません（データの性質にあまり仮定を置かないで予測できるのが機械学習系の手法です）。その辺は目的に合わせて検討してください。

投稿2018/12/19 05:13

編集2018/12/19 05:22

hayataka2049

総合スコア30933

モデルがどういう形をしているのかが想像できず、

がどういう意味か分かりませんが、SVM・ニューラルなどのモデルの取捨選択は、普通、試行錯誤によって行います。まぁ、ほとんどの場合、ニューラルネットが最適ですが。モデルのパラメータの最適化も試行錯誤によって行います。
分野やデータによって、ある程度過去の知見から、最適なモデルは限定されますので。一度、興味のある分野について、何かしらの書籍を読んでみてはどうでしょうか？

投稿2018/12/19 05:17