#実現したいこと
コードを完成させて顧客情報と位置情報よりマッピングして視覚化した分析ができるようにしたい。

#発生している問題・エラーメッセージ

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in create_block_manager_from_arrays(arrays, names, axes)
   1693     try:
-> 1694         blocks = form_blocks(arrays, names, axes)
   1695         mgr = BlockManager(blocks, axes)

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in form_blocks(arrays, names, axes)
   1782     if len(items_dict["ObjectBlock"]) > 0:
-> 1783         object_blocks = _simple_blockify(items_dict["ObjectBlock"], np.object_)
   1784         blocks.extend(object_blocks)

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in _simple_blockify(tuples, dtype)
   1826     """
-> 1827     values, placement = _stack_arrays(tuples, dtype)
   1828 

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in _stack_arrays(tuples, dtype)
   1875     for i, arr in enumerate(arrays):
-> 1876         stacked[i] = _asarray_compat(arr)
   1877 

ValueError: could not broadcast input array from shape (27234) into shape (2)

During handling of the above exception, another exception occurred:

ValueError                                Traceback (most recent call last)
<ipython-input-10-554ffd055ff2> in <module>
    149 
    150 x_list3=pd.concat([price, x_list], axis=1)
--> 151 sns.pairplot(x_list3, hue="Manhattan_dummy")
    152 
    153 

~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in pairplot(data, hue, hue_order, palette, vars, x_vars, y_vars, kind, diag_kind, markers, height, aspect, dropna, plot_kws, diag_kws, grid_kws, size)
   2119     if kind == "scatter":
   2120         from .relational import scatterplot  # Avoid circular import
-> 2121         plotter(scatterplot, **plot_kws)
   2122     elif kind == "reg":
   2123         from .regression import regplot  # Avoid circular import

~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in map_offdiag(self, func, **kwargs)
   1510         """
   1511 
-> 1512         self.map_lower(func, **kwargs)
   1513         self.map_upper(func, **kwargs)
   1514         return self

~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in map_lower(self, func, **kwargs)
   1440                 color = self.palette[k] if kw_color is None else kw_color
   1441                 func(data_k[x_var], data_k[y_var], label=label_k,
-> 1442                      color=color, **kwargs)
   1443 
   1444             self._clean_axis(ax)

~/opt/anaconda3/lib/python3.7/site-packages/seaborn/relational.py in scatterplot(x, y, hue, style, size, data, palette, hue_order, hue_norm, sizes, size_order, size_norm, markers, style_order, x_bins, y_bins, units, estimator, ci, n_boot, alpha, x_jitter, y_jitter, legend, ax, **kwargs)
   1333         x_bins=x_bins, y_bins=y_bins,
   1334         estimator=estimator, ci=ci, n_boot=n_boot,
-> 1335         alpha=alpha, x_jitter=x_jitter, y_jitter=y_jitter, legend=legend,
   1336     )
   1337 

~/opt/anaconda3/lib/python3.7/site-packages/seaborn/relational.py in __init__(self, x, y, hue, size, style, data, palette, hue_order, hue_norm, sizes, size_order, size_norm, dashes, markers, style_order, x_bins, y_bins, units, estimator, ci, n_boot, alpha, x_jitter, y_jitter, legend)
    850 
    851         plot_data = self.establish_variables(
--> 852             x, y, hue, size, style, units, data
    853         )
    854 

~/opt/anaconda3/lib/python3.7/site-packages/seaborn/relational.py in establish_variables(self, x, y, hue, size, style, units, data)
    155                 units=units
    156             )
--> 157             plot_data = pd.DataFrame(plot_data)
    158 
    159         # Option 3:

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/frame.py in __init__(self, data, index, columns, dtype, copy)
    409             )
    410         elif isinstance(data, dict):
--> 411             mgr = init_dict(data, index, columns, dtype=dtype)
    412         elif isinstance(data, ma.MaskedArray):
    413             import numpy.ma.mrecords as mrecords

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/construction.py in init_dict(data, index, columns, dtype)
    255             arr if not is_datetime64tz_dtype(arr) else arr.copy() for arr in arrays
    256         ]
--> 257     return arrays_to_mgr(arrays, data_names, index, columns, dtype=dtype)
    258 
    259 

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/construction.py in arrays_to_mgr(arrays, arr_names, index, columns, dtype)
     85     axes = [ensure_index(columns), index]
     86 
---> 87     return create_block_manager_from_arrays(arrays, arr_names, axes)
     88 
     89 

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in create_block_manager_from_arrays(arrays, names, axes)
   1697         return mgr
   1698     except ValueError as e:
-> 1699         construction_error(len(arrays), arrays[0].shape, axes, e)
   1700 
   1701 

~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in construction_error(tot_items, block_shape, axes, e)
   1717         raise ValueError("Empty data passed with indices specified.")
   1718     raise ValueError(
-> 1719         "Shape of passed values is {0}, indices imply {1}".format(passed, implied)
   1720     )
   1721 

ValueError: Shape of passed values is (2, 6), indices imply (27234, 6)

#該当のソースコード
コード

import pandas as pd
input_book = pd.ExcelFile('AB_NYC_2019_2.xlsx')
input_sheet_name = input_book.sheet_names
num_sheet = len(input_sheet_name)
print(input_sheet_name)
print("Sheet の数:", num_sheet)
input_sheet_df = input_book.parse(input_sheet_name[0])
input_sheet_df.head(10)

import matplotlib.pyplot as plt
import scipy.stats

manhattan_dummy=input_sheet_df.Manhattan_dummy
private_dummy=input_sheet_df.private_dummy
home_dummy=input_sheet_df.home_dummy
shared_dummy=input_sheet_df.shared_dummy
price=input_sheet_df.price
minimum_nights=input_sheet_df.minimum_nights
number_of_reviews=input_sheet_df.number_of_reviews
reviews_per_month=input_sheet_df.reviews_per_month
calculated_host_listings_count=input_sheet_df.calculated_host_listings_count
availability_365=input_sheet_df.availability_365

result = scipy.stats.linregress(number_of_reviews,price)
print('傾き=', result.slope.round(4),'切片=', result.intercept.round(4), '信頼係数=', result.rvalue.round(4),
      'p値=', result.pvalue.round(4), '標準偏差=', result.stderr.round(4))
result_slope = result.slope
result_intercept = result.intercept

plt.plot(number_of_reviews, [result_slope*u + result_intercept for u in number_of_reviews])
plt.scatter(number_of_reviews,price)
plt.title('price and number_of_reviews in Airbnb Dataset')
plt.ylabel('price')
plt.xlabel('number of reviews')
plt.show()

import statsmodels.api as sm
model = sm.OLS(price, sm.add_constant(number_of_reviews))
result = model.fit()
print(result.summary())
print('p-values\n', results.pvalues)

import seaborn as sns
plt.figure(figsize=(12, 9))
equation_df=pd.concat([manhattan_dummy,
                       private_dummy, home_dummy, shared_dummy, price, minimum_nights,
                       number_of_reviews, reviews_per_month,
                       calculated_host_listings_count, availability_365], axis=1)
sns.heatmap(equation_df.pct_change().corr(), annot=True, cmap='Blues')

import numpy as np
import statsmodels.api as sm
from sklearn import linear_model, datasets
from sklearn.linear_model import LinearRegression
price = pd.DataFrame(equation_df.price)

x_list = equation_df.drop("price",1)
x_list = equation_df.drop("reviews_per_month",1)
x_list = x_list.drop("shared_dummy",1)
x_list = x_list.drop("home_dummy",1)
x_list = x_list.drop(x_list.columns[np.isnan(x_list).any()], axis=1)

model = sm.OLS(price, sm.add_constant(x_list))
result =model.fit()
print(result.summary())
print(result.pvalues)

from statsmodels.stats.outliers_influence import variance_inflation_factor
num_cols = model.exog.shape[1]
print(num_cols) #説明変数の列数
vifs = [variance_inflation_factor(model.exog, i) for i in range(0, num_cols)]
pdv = pd.DataFrame(vifs, index=model.exog_names, columns=["VIF"])
print(pdv)

x_list3=pd.concat([price, x_list], axis=1)
sns.pairplot(x_list3, hue="Manhattan_dummy")

#読み込むデータファイル
https://www.dropbox.com/s/ypv4uwe8723x36o/AB_NYC_2019_2.xlsx?dl=0

データサンプルはこちら（３行分）
id name host_id host_name neighbourhood_group Manhattan_dummy neighbourhood latitude longitude room_type private_dummy home_dummy shared_dummy price minimum_nights number_of_reviews last_review reviews_per_month calculated_host_listings_count availability_365
0 2539 Clean & quiet apt home by the park 2787 John Brooklyn 0 Kensington 40.64749 -73.97237 Private room 1 0 0 149 1 9 2018-10-19 0.21 6 365
1 2595 Skylit Midtown Castle 2845 Jennifer Manhattan 1 Midtown 40.75362 -73.98377 Entire home/apt 0 1 0 225 1 45 2019-05-21 0.38 2 355
2 3647 THE VILLAGE OF HARLEM....NEW YORK ! 4632 Elisabeth Manhattan 1 Harlem 40.80902 -73.94190 Private room 1 0 0 150 3 0 NaT NaN 1 365

#自分で調べたことや試したこと
類例を索しましたが、うまく見つけられませんでした。
２日前にPython/notebookを初め、DLもその際にしましたので、macの最新version(3.7?)を使用しています。
初心者で詳しくないですが、おそらく、このvalue errorのため？、途中でコードの実行が止まっているいるかと思われます。
サポート頂ける方に深謝します！

y_waiwai

2021/02/14 23:35

このままではコードが読めないので、質問を編集し、<code>ボタンを押し、出てくる’’’の枠の中にコードを貼り付けてください

YY2

2021/02/15 00:13

そうなのですね、失礼しました。先ほど編集しました。ありがとうございます。

jeanbiego

2021/02/15 04:22

「```」と「```」で挟むようにして、コードを書いてください。例： ``` import pandas as pd input_book = pd.ExcelFile('AB_NYC_2019_2.xlsx') ```

YY2

2021/02/15 04:59 編集

素人で知らずにすみません。。只今、コードの上下に```で挟んで編集しました。ありがとうございます！ `

行動規範の内容に同意します

回答1件

ベストアンサー

import文がいろんなところにあるのは、jupyter notebookとかで試したセルを、そのままつなげたんでしょうか。エラー文もそれぞれセルのものですね？　本当は、セルごとに分けて一つずつ質問したほうが、回答がつきやすいと思います。
~~あと、ネット上にあるデータならリンクを貼っておいてください。~~　失礼、改めてみたら貼ってありましたね。

dataframeの記法

manhattan_dummy=input_sheet_df.Manhattan_dummyという書き方はありません。
manhattan_dummy=input_sheet_df["Manhattan_dummry"]ですね。（なんか元のxslxは誤字でしょうか、dummryになってますね）

誤字

print('p-values\n', results.pvalues) resultsになってますがresultですね。
print('p-values\n', result.pvalues)

concat

x_list3=pd.concat([price, x_list], axis=1) ここで、x_list中にはpriceはすでに存在していますが、更にconcatしようとしているのはなぜでしょうか。
これを省くと、sns.pairplot(x_list, hue="Manhattan_dummry")は動作するようです。

追記

下記、試してみてください。

python3
1import pandas as pd
2input_book = pd.ExcelFile('AB_NYC_2019_2.xlsx')
3input_sheet_name = input_book.sheet_names
4num_sheet = len(input_sheet_name)
5print(input_sheet_name)
6print("Sheet の数:", num_sheet)
7input_sheet_df = input_book.parse(input_sheet_name[0])
8input_sheet_df.head(10)
9
10import matplotlib.pyplot as plt
11import scipy.stats
12
13manhattan_dummy=input_sheet_df["Manhattan_dummry"]
14private_dummy=input_sheet_df["private_dummy"]
15home_dummy=input_sheet_df["home_dummy"]
16shared_dummy=input_sheet_df["shared_dummy"]
17price=input_sheet_df["price"]
18minimum_nights=input_sheet_df["minimum_nights"]
19number_of_reviews=input_sheet_df["number_of_reviews"]
20reviews_per_month=input_sheet_df["reviews_per_month"]
21calculated_host_listings_count=input_sheet_df["calculated_host_listings_count"]
22availability_365=input_sheet_df["availability_365"]
23
24result = scipy.stats.linregress(number_of_reviews,price)
25print('傾き=', result.slope.round(4),'切片=', result.intercept.round(4), '信頼係数=', result.rvalue.round(4),
26      'p値=', result.pvalue.round(4), '標準偏差=', result.stderr.round(4))
27result_slope = result.slope
28result_intercept = result.intercept
29
30plt.plot(number_of_reviews, [result_slope*u + result_intercept for u in number_of_reviews])
31plt.scatter(number_of_reviews,price)
32plt.title('price and number_of_reviews in Airbnb Dataset')
33plt.ylabel('price')
34plt.xlabel('number of reviews')
35plt.show()
36
37import statsmodels.api as sm
38model = sm.OLS(price, sm.add_constant(number_of_reviews))
39result = model.fit()
40print(result.summary())
41print('p-values\n', result.pvalues)
42
43import seaborn as sns
44plt.figure(figsize=(12, 9))
45equation_df=pd.concat([manhattan_dummy,
46                       private_dummy, home_dummy, shared_dummy, price, minimum_nights,
47                       number_of_reviews, reviews_per_month,
48                       calculated_host_listings_count, availability_365], axis=1)
49sns.heatmap(equation_df.pct_change().corr(), annot=True, cmap='Blues')
50
51import numpy as np
52import statsmodels.api as sm
53from sklearn import linear_model, datasets
54from sklearn.linear_model import LinearRegression
55price = pd.DataFrame(equation_df.price)
56
57x_list = equation_df.drop("price",1)
58x_list = equation_df.drop("reviews_per_month",1)
59x_list = x_list.drop("shared_dummy",1)
60x_list = x_list.drop("home_dummy",1)
61x_list = x_list.drop(x_list.columns[np.isnan(x_list).any()], axis=1)
62
63model = sm.OLS(price, sm.add_constant(x_list))
64result =model.fit()
65print(result.summary())
66print(result.pvalues)
67
68from statsmodels.stats.outliers_influence import variance_inflation_factor
69num_cols = model.exog.shape[1]
70print(num_cols) #説明変数の列数
71vifs = [variance_inflation_factor(model.exog, i) for i in range(0, num_cols)]
72pdv = pd.DataFrame(vifs, index=model.exog_names, columns=["VIF"])
73print(pdv)
74
75p_plot = sns.pairplot(x_list, hue="Manhattan_dummry")
76p_plot.savefig("pair.png")
77

投稿2021/02/15 04:58

編集2021/02/15 13:35

jeanbiego

総合スコア3966

YY2

2021/02/15 10:55

ご連絡遅くなり、すみません。アドバイス頂きました1.2.は修正しました。本当にありがとうございます！ただ、3.「x_list3=pd.concat([price, x_list], axis=1)」を削除して実行しましたが、まだ同じエラーが出てしまいますね。。上記の「発生している問題・エラーメッセージ」の末尾の ValueError: Shape of passed values is (2, 6), indices imply (27234, 6) の後の図を以下のスクショで貼りましたが、こちらをうまく出力するのが最終ゴールなのですが。グラフが空白だけになる不具合ですね。。

jeanbiego

2021/02/15 13:38

うちの環境だと動きますね… コードに差異があるのかもしれません。追記したので試してみてください。（最後のプロット、表示でなく保存にしてしまってるので、適宜変更してください）

YY2

2021/02/15 22:39

ありがとうございます。トライさせて頂きます。

YY2

2021/02/15 23:07 編集

頂きましたコードをそのまま転記して試してみました。以下のRoutine Errorが表示されますね。グラフは空白のままですね。。原因は何なのでしょう？（素人質問におつき合い頂き、本当に感謝しております！） ``` --------------------------------------------------------------------------- RuntimeError Traceback (most recent call last) <ipython-input-7-ef5a4b53edb1> in <module> 73 print(pdv) 74 ---> 75 p_plot = sns.pairplot(x_list, hue="Manhattan_dummry") 76 p_plot.savefig("pair.png") ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in pairplot(data, hue, hue_order, palette, vars, x_vars, y_vars, kind, diag_kind, markers, height, aspect, dropna, plot_kws, diag_kws, grid_kws, size) 2109 diag_kws.setdefault("shade", True) 2110 diag_kws["legend"] = False -> 2111 grid.map_diag(kdeplot, **diag_kws) 2112 2113 # Maybe plot on the off-diagonals ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in map_diag(self, func, **kwargs) 1397 color = fixed_color 1398 -> 1399 func(data_k, label=label_k, color=color, **kwargs) 1400 1401 self._clean_axis(ax) ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/distributions.py in kdeplot(data, data2, shade, vertical, kernel, bw, gridsize, cut, clip, legend, cumulative, shade_lowest, cbar, cbar_ax, cbar_kws, ax, **kwargs) 689 ax = _univariate_kdeplot(data, shade, vertical, kernel, bw, 690 gridsize, cut, clip, legend, ax, --> 691 cumulative=cumulative, **kwargs) 692 693 return ax ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/distributions.py in _univariate_kdeplot(data, shade, vertical, kernel, bw, gridsize, cut, clip, legend, ax, cumulative, **kwargs) 281 x, y = _statsmodels_univariate_kde(data, kernel, bw, 282 gridsize, cut, clip, --> 283 cumulative=cumulative) 284 else: 285 # Fall back to scipy if missing statsmodels ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/distributions.py in _statsmodels_univariate_kde(data, kernel, bw, gridsize, cut, clip, cumulative) 353 fft = kernel == "gau" 354 kde = smnp.KDEUnivariate(data) --> 355 kde.fit(kernel, bw, fft, gridsize=gridsize, cut=cut, clip=clip) 356 if cumulative: 357 grid, y = kde.support, kde.cdf ~/opt/anaconda3/lib/python3.7/site-packages/statsmodels/nonparametric/kde.py in fit(self, kernel, bw, fft, weights, gridsize, adjust, cut, clip) 173 gridsize=gridsize, 174 clip=clip, --> 175 cut=cut, 176 ) 177 else: ~/opt/anaconda3/lib/python3.7/site-packages/statsmodels/nonparametric/kde.py in kdensityfft(x, kernel, bw, weights, gridsize, adjust, clip, cut, retgrid) 555 elif isinstance(bw, str): 556 # if bw is None, select optimal bandwidth for kernel --> 557 bw = bandwidths.select_bandwidth(x, bw, kern) 558 # will cross-val fit this pattern? 559 else: ~/opt/anaconda3/lib/python3.7/site-packages/statsmodels/nonparametric/bandwidths.py in select_bandwidth(x, bw, kernel) 180 "Either provide the bandwidth during initialization or use " \ 181 "an alternative method." --> 182 raise RuntimeError(err) 183 else: 184 return bandwidth RuntimeError: Selected KDE bandwidth is 0. Cannot estimate density. Either provide the bandwidth during initialization or use an alternative method. ``` 図のスクショ https://www.dropbox.com/s/0xycoyi0r7vd4me/%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202021-02-16%208.06.31.png?dl=0

jeanbiego

2021/02/16 00:19

KDE（カーネル密度推定）の帯域幅を手動で指定しないといけない場合があるようです。（私も詳しくはないので、理論の話はご自分で調べてみてください）とりあえず、下記を試してみてください。 sns.pairplot(x_list, hue="Manhattan_dummry", diag_kws={'bw': 0.1})

YY2

2021/02/16 00:49

出来ました！、最後まで到達しました。本当にありがとうございます。 KDEの理論まではとてもまだ実力が届きませんが、学びながら進みたいと思います。重ねて御礼申し上げます。勿論、ベストアンサーにさせて頂きます。

行動規範の内容に同意します