回答編集履歴

追記

2021/02/15 13:35

投稿

jeanbiego

スコア3966

test CHANGED Viewed

@@ -25,3 +25,169 @@
 `x_list3=pd.concat([price, x_list], axis=1)` ここで、x_list中にはpriceはすでに存在していますが、更にconcatしようとしているのはなぜでしょうか。
 これを省くと、`sns.pairplot(x_list, hue="Manhattan_dummry")`は動作するようです。
+# 追記
+下記、試してみてください。
+```python3
+import pandas as pd
+input_book = pd.ExcelFile('AB_NYC_2019_2.xlsx')
+input_sheet_name = input_book.sheet_names
+num_sheet = len(input_sheet_name)
+print(input_sheet_name)
+print("Sheet の数:", num_sheet)
+input_sheet_df = input_book.parse(input_sheet_name[0])
+input_sheet_df.head(10)
+import matplotlib.pyplot as plt
+import scipy.stats
+manhattan_dummy=input_sheet_df["Manhattan_dummry"]
+private_dummy=input_sheet_df["private_dummy"]
+home_dummy=input_sheet_df["home_dummy"]
+shared_dummy=input_sheet_df["shared_dummy"]
+price=input_sheet_df["price"]
+minimum_nights=input_sheet_df["minimum_nights"]
+number_of_reviews=input_sheet_df["number_of_reviews"]
+reviews_per_month=input_sheet_df["reviews_per_month"]
+calculated_host_listings_count=input_sheet_df["calculated_host_listings_count"]
+availability_365=input_sheet_df["availability_365"]
+result = scipy.stats.linregress(number_of_reviews,price)
+print('傾き=', result.slope.round(4),'切片=', result.intercept.round(4), '信頼係数=', result.rvalue.round(4),
+      'p値=', result.pvalue.round(4), '標準偏差=', result.stderr.round(4))
+result_slope = result.slope
+result_intercept = result.intercept
+plt.plot(number_of_reviews, [result_slope*u + result_intercept for u in number_of_reviews])
+plt.scatter(number_of_reviews,price)
+plt.title('price and number_of_reviews in Airbnb Dataset')
+plt.ylabel('price')
+plt.xlabel('number of reviews')
+plt.show()
+import statsmodels.api as sm
+model = sm.OLS(price, sm.add_constant(number_of_reviews))
+result = model.fit()
+print(result.summary())
+print('p-values\n', result.pvalues)
+import seaborn as sns
+plt.figure(figsize=(12, 9))
+equation_df=pd.concat([manhattan_dummy,
+                       private_dummy, home_dummy, shared_dummy, price, minimum_nights,
+                       number_of_reviews, reviews_per_month,
+                       calculated_host_listings_count, availability_365], axis=1)
+sns.heatmap(equation_df.pct_change().corr(), annot=True, cmap='Blues')
+import numpy as np
+import statsmodels.api as sm
+from sklearn import linear_model, datasets
+from sklearn.linear_model import LinearRegression
+price = pd.DataFrame(equation_df.price)
+x_list = equation_df.drop("price",1)
+x_list = equation_df.drop("reviews_per_month",1)
+x_list = x_list.drop("shared_dummy",1)
+x_list = x_list.drop("home_dummy",1)
+x_list = x_list.drop(x_list.columns[np.isnan(x_list).any()], axis=1)
+model = sm.OLS(price, sm.add_constant(x_list))
+result =model.fit()
+print(result.summary())
+print(result.pvalues)
+from statsmodels.stats.outliers_influence import variance_inflation_factor
+num_cols = model.exog.shape[1]
+print(num_cols) #説明変数の列数
+vifs = [variance_inflation_factor(model.exog, i) for i in range(0, num_cols)]
+pdv = pd.DataFrame(vifs, index=model.exog_names, columns=["VIF"])
+print(pdv)
+p_plot = sns.pairplot(x_list, hue="Manhattan_dummry")
+p_plot.savefig("pair.png")
+```
+![pairplot](9cceaf7da8e010c417fafffd06c1b0c3.png)

追記

2021/02/15 13:35

投稿

jeanbiego

スコア3966

test CHANGED Viewed

@@ -17,3 +17,11 @@
 `print('p-values\n', results.pvalues)` resultsになってますがresultですね。
 `print('p-values\n', result.pvalues)`
+0. concat
+`x_list3=pd.concat([price, x_list], axis=1)` ここで、x_list中にはpriceはすでに存在していますが、更にconcatしようとしているのはなぜでしょうか。
+これを省くと、`sns.pairplot(x_list, hue="Manhattan_dummry")`は動作するようです。

修正

2021/02/15 05:10

投稿

jeanbiego

スコア3966

test CHANGED Viewed

@@ -1,6 +1,6 @@
 import文がいろんなところにあるのは、jupyter notebookとかで試したセルを、そのままつなげたんでしょうか。エラー文もそれぞれセルのものですね？　本当は、セルごとに分けて一つずつ質問したほうが、回答がつきやすいと思います。
-あと、ネット上にあるデータならリンクを貼っておいてください。
+~~あと、ネット上にあるデータならリンクを貼っておいてください。~~　失礼、改めてみたら貼ってありましたね。

修正

2021/02/15 05:02

投稿

jeanbiego

スコア3966

test CHANGED Viewed

@@ -17,11 +17,3 @@
 `print('p-values\n', results.pvalues)` resultsになってますがresultですね。
 `print('p-values\n', result.pvalues)`
-0. concatの向き
-`x_list3=pd.concat([price, x_list], axis=1)`のところ、[48366 rows x 1 columns]と[48366 rows x 7 columns]いう、横幅の違う2つを縦につなげようとしてエラーが出ています。横につなげるんではないんでしょうか。
-`x_list3=pd.concat([price, x_list], axis=0)`