pandasで四苦八苦している最中ですが、モデリングのところでも前途多難な折、ご教示いただけますよう、お願いします。
一番左は各宿泊所の評点、それより右側はどういう設備があるかを示しており、1行毎に別物件です。
評点を目的変数とし、各設備を説明変数とする回帰分析ができないか、というところで、回帰モデルを走らせてみました。
データ自体は、まずはトライフルというところで、88×36です。
意図としては、投資する各設備が利用客の支持→評価につながるか、予想したいというものです。
説明変数は、0(なし)、1(有り)に統一しています。設備は様々ですが、0,1以外のデータはありません。
pandas
1x=df_col_rworker_reviews_listings_data 2y=df_col_rworker_reviews_listings_target 3X = sm.add_constant(x) 4model = sm.OLS(y, X) 5result = model.fit() 6result.summary() 7
ネットの聞きかじりに見てみると、
1.Adj. R-squaredは世の指標は0.85とからしいですが、0.089と遙かに下回る水準。
2.p値は、統計的に意味のある0に近づくどころか…、絶対値で0は遠く、棄却水準0.05も超えるものが殆ど。
ということでなかなかの状況だということは、私にも分かりました。
なぜ、こうなったのか辺り含め、以下、ご教示下さい。
Q1.
その設備があるか、ないかだけのデータ(質的データ)だけで、Least squaresを用いること自体、誤っているような気がしていますが、いかがでしょうか?
Q2.
該当するか否か、好きか嫌いか的な定量化できないデータが説明変数の場合は、ロジスティック回帰を使うとネットで見かけた記憶があります。
本件は、ロジスティック回帰で対応すべきだったのでしょうか?
Q3.
目的変数は5点満点で、概ね、4~5の間に分類しています。
目的変数も、有り得る値を予測するモデルとして、0~1内に納める必要があるのでしょうか?
その場合は、0~5の評点を、÷5して対応しようと思います。
元々、目的変数の評点自体、かなり主観的なものです。そういうものを目的変数とするのには機械学習は馴染まない、予約実績、価格等の客観性のある定量データにするものかもしれないとも感じています。
この点も含め、ご教示いただけますと幸いです。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/02/16 01:46