質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

3637閲覧

ValueError: のエラーメッセージを解決してコード全体を実行させたい

YY2

総合スコア5

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/02/14 23:32

編集2021/02/15 04:58

#実現したいこと
コードを完成させて顧客情報と位置情報よりマッピングして視覚化した分析ができるようにしたい。

#発生している問題・エラーメッセージ

--------------------------------------------------------------------------- ValueError Traceback (most recent call last) ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in create_block_manager_from_arrays(arrays, names, axes) 1693 try: -> 1694 blocks = form_blocks(arrays, names, axes) 1695 mgr = BlockManager(blocks, axes) ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in form_blocks(arrays, names, axes) 1782 if len(items_dict["ObjectBlock"]) > 0: -> 1783 object_blocks = _simple_blockify(items_dict["ObjectBlock"], np.object_) 1784 blocks.extend(object_blocks) ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in _simple_blockify(tuples, dtype) 1826 """ -> 1827 values, placement = _stack_arrays(tuples, dtype) 1828 ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in _stack_arrays(tuples, dtype) 1875 for i, arr in enumerate(arrays): -> 1876 stacked[i] = _asarray_compat(arr) 1877 ValueError: could not broadcast input array from shape (27234) into shape (2) During handling of the above exception, another exception occurred: ValueError Traceback (most recent call last) <ipython-input-10-554ffd055ff2> in <module> 149 150 x_list3=pd.concat([price, x_list], axis=1) --> 151 sns.pairplot(x_list3, hue="Manhattan_dummy") 152 153 ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in pairplot(data, hue, hue_order, palette, vars, x_vars, y_vars, kind, diag_kind, markers, height, aspect, dropna, plot_kws, diag_kws, grid_kws, size) 2119 if kind == "scatter": 2120 from .relational import scatterplot # Avoid circular import -> 2121 plotter(scatterplot, **plot_kws) 2122 elif kind == "reg": 2123 from .regression import regplot # Avoid circular import ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in map_offdiag(self, func, **kwargs) 1510 """ 1511 -> 1512 self.map_lower(func, **kwargs) 1513 self.map_upper(func, **kwargs) 1514 return self ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in map_lower(self, func, **kwargs) 1440 color = self.palette[k] if kw_color is None else kw_color 1441 func(data_k[x_var], data_k[y_var], label=label_k, -> 1442 color=color, **kwargs) 1443 1444 self._clean_axis(ax) ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/relational.py in scatterplot(x, y, hue, style, size, data, palette, hue_order, hue_norm, sizes, size_order, size_norm, markers, style_order, x_bins, y_bins, units, estimator, ci, n_boot, alpha, x_jitter, y_jitter, legend, ax, **kwargs) 1333 x_bins=x_bins, y_bins=y_bins, 1334 estimator=estimator, ci=ci, n_boot=n_boot, -> 1335 alpha=alpha, x_jitter=x_jitter, y_jitter=y_jitter, legend=legend, 1336 ) 1337 ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/relational.py in __init__(self, x, y, hue, size, style, data, palette, hue_order, hue_norm, sizes, size_order, size_norm, dashes, markers, style_order, x_bins, y_bins, units, estimator, ci, n_boot, alpha, x_jitter, y_jitter, legend) 850 851 plot_data = self.establish_variables( --> 852 x, y, hue, size, style, units, data 853 ) 854 ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/relational.py in establish_variables(self, x, y, hue, size, style, units, data) 155 units=units 156 ) --> 157 plot_data = pd.DataFrame(plot_data) 158 159 # Option 3: ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/frame.py in __init__(self, data, index, columns, dtype, copy) 409 ) 410 elif isinstance(data, dict): --> 411 mgr = init_dict(data, index, columns, dtype=dtype) 412 elif isinstance(data, ma.MaskedArray): 413 import numpy.ma.mrecords as mrecords ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/construction.py in init_dict(data, index, columns, dtype) 255 arr if not is_datetime64tz_dtype(arr) else arr.copy() for arr in arrays 256 ] --> 257 return arrays_to_mgr(arrays, data_names, index, columns, dtype=dtype) 258 259 ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/construction.py in arrays_to_mgr(arrays, arr_names, index, columns, dtype) 85 axes = [ensure_index(columns), index] 86 ---> 87 return create_block_manager_from_arrays(arrays, arr_names, axes) 88 89 ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in create_block_manager_from_arrays(arrays, names, axes) 1697 return mgr 1698 except ValueError as e: -> 1699 construction_error(len(arrays), arrays[0].shape, axes, e) 1700 1701 ~/opt/anaconda3/lib/python3.7/site-packages/pandas/core/internals/managers.py in construction_error(tot_items, block_shape, axes, e) 1717 raise ValueError("Empty data passed with indices specified.") 1718 raise ValueError( -> 1719 "Shape of passed values is {0}, indices imply {1}".format(passed, implied) 1720 ) 1721 ValueError: Shape of passed values is (2, 6), indices imply (27234, 6)

#該当のソースコード
コード

import pandas as pd input_book = pd.ExcelFile('AB_NYC_2019_2.xlsx') input_sheet_name = input_book.sheet_names num_sheet = len(input_sheet_name) print(input_sheet_name) print("Sheet の数:", num_sheet) input_sheet_df = input_book.parse(input_sheet_name[0]) input_sheet_df.head(10) import matplotlib.pyplot as plt import scipy.stats manhattan_dummy=input_sheet_df.Manhattan_dummy private_dummy=input_sheet_df.private_dummy home_dummy=input_sheet_df.home_dummy shared_dummy=input_sheet_df.shared_dummy price=input_sheet_df.price minimum_nights=input_sheet_df.minimum_nights number_of_reviews=input_sheet_df.number_of_reviews reviews_per_month=input_sheet_df.reviews_per_month calculated_host_listings_count=input_sheet_df.calculated_host_listings_count availability_365=input_sheet_df.availability_365 result = scipy.stats.linregress(number_of_reviews,price) print('傾き=', result.slope.round(4),'切片=', result.intercept.round(4), '信頼係数=', result.rvalue.round(4), 'p値=', result.pvalue.round(4), '標準偏差=', result.stderr.round(4)) result_slope = result.slope result_intercept = result.intercept plt.plot(number_of_reviews, [result_slope*u + result_intercept for u in number_of_reviews]) plt.scatter(number_of_reviews,price) plt.title('price and number_of_reviews in Airbnb Dataset') plt.ylabel('price') plt.xlabel('number of reviews') plt.show() import statsmodels.api as sm model = sm.OLS(price, sm.add_constant(number_of_reviews)) result = model.fit() print(result.summary()) print('p-values\n', results.pvalues) import seaborn as sns plt.figure(figsize=(12, 9)) equation_df=pd.concat([manhattan_dummy, private_dummy, home_dummy, shared_dummy, price, minimum_nights, number_of_reviews, reviews_per_month, calculated_host_listings_count, availability_365], axis=1) sns.heatmap(equation_df.pct_change().corr(), annot=True, cmap='Blues') import numpy as np import statsmodels.api as sm from sklearn import linear_model, datasets from sklearn.linear_model import LinearRegression price = pd.DataFrame(equation_df.price) x_list = equation_df.drop("price",1) x_list = equation_df.drop("reviews_per_month",1) x_list = x_list.drop("shared_dummy",1) x_list = x_list.drop("home_dummy",1) x_list = x_list.drop(x_list.columns[np.isnan(x_list).any()], axis=1) model = sm.OLS(price, sm.add_constant(x_list)) result =model.fit() print(result.summary()) print(result.pvalues) from statsmodels.stats.outliers_influence import variance_inflation_factor num_cols = model.exog.shape[1] print(num_cols) #説明変数の列数 vifs = [variance_inflation_factor(model.exog, i) for i in range(0, num_cols)] pdv = pd.DataFrame(vifs, index=model.exog_names, columns=["VIF"]) print(pdv) x_list3=pd.concat([price, x_list], axis=1) sns.pairplot(x_list3, hue="Manhattan_dummy")

#読み込むデータファイル
https://www.dropbox.com/s/ypv4uwe8723x36o/AB_NYC_2019_2.xlsx?dl=0

データサンプルはこちら(3行分)
id name host_id host_name neighbourhood_group Manhattan_dummy neighbourhood latitude longitude room_type private_dummy home_dummy shared_dummy price minimum_nights number_of_reviews last_review reviews_per_month calculated_host_listings_count availability_365
0 2539 Clean & quiet apt home by the park 2787 John Brooklyn 0 Kensington 40.64749 -73.97237 Private room 1 0 0 149 1 9 2018-10-19 0.21 6 365
1 2595 Skylit Midtown Castle 2845 Jennifer Manhattan 1 Midtown 40.75362 -73.98377 Entire home/apt 0 1 0 225 1 45 2019-05-21 0.38 2 355
2 3647 THE VILLAGE OF HARLEM....NEW YORK ! 4632 Elisabeth Manhattan 1 Harlem 40.80902 -73.94190 Private room 1 0 0 150 3 0 NaT NaN 1 365

#自分で調べたことや試したこと
類例を索しましたが、うまく見つけられませんでした。
2日前にPython/notebookを初め、DLもその際にしましたので、macの最新version(3.7?)を使用しています。
初心者で詳しくないですが、おそらく、このvalue errorのため?、途中でコードの実行が止まっているいるかと思われます。
サポート頂ける方に深謝します!

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

y_waiwai

2021/02/14 23:35

このままではコードが読めないので、質問を編集し、<code>ボタンを押し、出てくる’’’の枠の中にコードを貼り付けてください
YY2

2021/02/15 00:13

そうなのですね、失礼しました。先ほど編集しました。ありがとうございます。
jeanbiego

2021/02/15 04:22

「```」と「```」で挟むようにして、コードを書いてください。 例: ``` import pandas as pd input_book = pd.ExcelFile('AB_NYC_2019_2.xlsx') ```
YY2

2021/02/15 04:59 編集

素人で知らずにすみません。。 只今、コードの上下に```で挟んで編集しました。 ありがとうございます! `
guest

回答1

0

ベストアンサー

import文がいろんなところにあるのは、jupyter notebookとかで試したセルを、そのままつなげたんでしょうか。エラー文もそれぞれセルのものですね? 本当は、セルごとに分けて一つずつ質問したほうが、回答がつきやすいと思います。
あと、ネット上にあるデータならリンクを貼っておいてください。 失礼、改めてみたら貼ってありましたね。

  1. dataframeの記法

manhattan_dummy=input_sheet_df.Manhattan_dummyという書き方はありません。
manhattan_dummy=input_sheet_df["Manhattan_dummry"]ですね。(なんか元のxslxは誤字でしょうか、dummryになってますね)

  1. 誤字

print('p-values\n', results.pvalues) resultsになってますがresultですね。
print('p-values\n', result.pvalues)

  1. concat

x_list3=pd.concat([price, x_list], axis=1) ここで、x_list中にはpriceはすでに存在していますが、更にconcatしようとしているのはなぜでしょうか。
これを省くと、sns.pairplot(x_list, hue="Manhattan_dummry")は動作するようです。

追記

下記、試してみてください。

python3

1import pandas as pd 2input_book = pd.ExcelFile('AB_NYC_2019_2.xlsx') 3input_sheet_name = input_book.sheet_names 4num_sheet = len(input_sheet_name) 5print(input_sheet_name) 6print("Sheet の数:", num_sheet) 7input_sheet_df = input_book.parse(input_sheet_name[0]) 8input_sheet_df.head(10) 9 10import matplotlib.pyplot as plt 11import scipy.stats 12 13manhattan_dummy=input_sheet_df["Manhattan_dummry"] 14private_dummy=input_sheet_df["private_dummy"] 15home_dummy=input_sheet_df["home_dummy"] 16shared_dummy=input_sheet_df["shared_dummy"] 17price=input_sheet_df["price"] 18minimum_nights=input_sheet_df["minimum_nights"] 19number_of_reviews=input_sheet_df["number_of_reviews"] 20reviews_per_month=input_sheet_df["reviews_per_month"] 21calculated_host_listings_count=input_sheet_df["calculated_host_listings_count"] 22availability_365=input_sheet_df["availability_365"] 23 24result = scipy.stats.linregress(number_of_reviews,price) 25print('傾き=', result.slope.round(4),'切片=', result.intercept.round(4), '信頼係数=', result.rvalue.round(4), 26 'p値=', result.pvalue.round(4), '標準偏差=', result.stderr.round(4)) 27result_slope = result.slope 28result_intercept = result.intercept 29 30plt.plot(number_of_reviews, [result_slope*u + result_intercept for u in number_of_reviews]) 31plt.scatter(number_of_reviews,price) 32plt.title('price and number_of_reviews in Airbnb Dataset') 33plt.ylabel('price') 34plt.xlabel('number of reviews') 35plt.show() 36 37import statsmodels.api as sm 38model = sm.OLS(price, sm.add_constant(number_of_reviews)) 39result = model.fit() 40print(result.summary()) 41print('p-values\n', result.pvalues) 42 43import seaborn as sns 44plt.figure(figsize=(12, 9)) 45equation_df=pd.concat([manhattan_dummy, 46 private_dummy, home_dummy, shared_dummy, price, minimum_nights, 47 number_of_reviews, reviews_per_month, 48 calculated_host_listings_count, availability_365], axis=1) 49sns.heatmap(equation_df.pct_change().corr(), annot=True, cmap='Blues') 50 51import numpy as np 52import statsmodels.api as sm 53from sklearn import linear_model, datasets 54from sklearn.linear_model import LinearRegression 55price = pd.DataFrame(equation_df.price) 56 57x_list = equation_df.drop("price",1) 58x_list = equation_df.drop("reviews_per_month",1) 59x_list = x_list.drop("shared_dummy",1) 60x_list = x_list.drop("home_dummy",1) 61x_list = x_list.drop(x_list.columns[np.isnan(x_list).any()], axis=1) 62 63model = sm.OLS(price, sm.add_constant(x_list)) 64result =model.fit() 65print(result.summary()) 66print(result.pvalues) 67 68from statsmodels.stats.outliers_influence import variance_inflation_factor 69num_cols = model.exog.shape[1] 70print(num_cols) #説明変数の列数 71vifs = [variance_inflation_factor(model.exog, i) for i in range(0, num_cols)] 72pdv = pd.DataFrame(vifs, index=model.exog_names, columns=["VIF"]) 73print(pdv) 74 75p_plot = sns.pairplot(x_list, hue="Manhattan_dummry") 76p_plot.savefig("pair.png") 77

pairplot

投稿2021/02/15 04:58

編集2021/02/15 13:35
jeanbiego

総合スコア3966

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

YY2

2021/02/15 10:55

ご連絡遅くなり、すみません。 アドバイス頂きました1.2.は修正しました。本当にありがとうございます! ただ、3.「x_list3=pd.concat([price, x_list], axis=1)」を削除して実行しましたが、まだ同じエラーが出てしまいますね。。 上記の「発生している問題・エラーメッセージ」の末尾の ValueError: Shape of passed values is (2, 6), indices imply (27234, 6) の後の図を以下のスクショで貼りましたが、こちらをうまく出力するのが最終ゴールなのですが。 グラフが空白だけになる不具合ですね。。
jeanbiego

2021/02/15 13:38

うちの環境だと動きますね… コードに差異があるのかもしれません。追記したので試してみてください。(最後のプロット、表示でなく保存にしてしまってるので、適宜変更してください)
YY2

2021/02/15 22:39

ありがとうございます。トライさせて頂きます。
YY2

2021/02/15 23:07 編集

頂きましたコードをそのまま転記して試してみました。以下のRoutine Errorが表示されますね。 グラフは空白のままですね。。原因は何なのでしょう? (素人質問におつき合い頂き、本当に感謝しております!) ``` --------------------------------------------------------------------------- RuntimeError Traceback (most recent call last) <ipython-input-7-ef5a4b53edb1> in <module> 73 print(pdv) 74 ---> 75 p_plot = sns.pairplot(x_list, hue="Manhattan_dummry") 76 p_plot.savefig("pair.png") ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in pairplot(data, hue, hue_order, palette, vars, x_vars, y_vars, kind, diag_kind, markers, height, aspect, dropna, plot_kws, diag_kws, grid_kws, size) 2109 diag_kws.setdefault("shade", True) 2110 diag_kws["legend"] = False -> 2111 grid.map_diag(kdeplot, **diag_kws) 2112 2113 # Maybe plot on the off-diagonals ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/axisgrid.py in map_diag(self, func, **kwargs) 1397 color = fixed_color 1398 -> 1399 func(data_k, label=label_k, color=color, **kwargs) 1400 1401 self._clean_axis(ax) ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/distributions.py in kdeplot(data, data2, shade, vertical, kernel, bw, gridsize, cut, clip, legend, cumulative, shade_lowest, cbar, cbar_ax, cbar_kws, ax, **kwargs) 689 ax = _univariate_kdeplot(data, shade, vertical, kernel, bw, 690 gridsize, cut, clip, legend, ax, --> 691 cumulative=cumulative, **kwargs) 692 693 return ax ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/distributions.py in _univariate_kdeplot(data, shade, vertical, kernel, bw, gridsize, cut, clip, legend, ax, cumulative, **kwargs) 281 x, y = _statsmodels_univariate_kde(data, kernel, bw, 282 gridsize, cut, clip, --> 283 cumulative=cumulative) 284 else: 285 # Fall back to scipy if missing statsmodels ~/opt/anaconda3/lib/python3.7/site-packages/seaborn/distributions.py in _statsmodels_univariate_kde(data, kernel, bw, gridsize, cut, clip, cumulative) 353 fft = kernel == "gau" 354 kde = smnp.KDEUnivariate(data) --> 355 kde.fit(kernel, bw, fft, gridsize=gridsize, cut=cut, clip=clip) 356 if cumulative: 357 grid, y = kde.support, kde.cdf ~/opt/anaconda3/lib/python3.7/site-packages/statsmodels/nonparametric/kde.py in fit(self, kernel, bw, fft, weights, gridsize, adjust, cut, clip) 173 gridsize=gridsize, 174 clip=clip, --> 175 cut=cut, 176 ) 177 else: ~/opt/anaconda3/lib/python3.7/site-packages/statsmodels/nonparametric/kde.py in kdensityfft(x, kernel, bw, weights, gridsize, adjust, clip, cut, retgrid) 555 elif isinstance(bw, str): 556 # if bw is None, select optimal bandwidth for kernel --> 557 bw = bandwidths.select_bandwidth(x, bw, kern) 558 # will cross-val fit this pattern? 559 else: ~/opt/anaconda3/lib/python3.7/site-packages/statsmodels/nonparametric/bandwidths.py in select_bandwidth(x, bw, kernel) 180 "Either provide the bandwidth during initialization or use " \ 181 "an alternative method." --> 182 raise RuntimeError(err) 183 else: 184 return bandwidth RuntimeError: Selected KDE bandwidth is 0. Cannot estimate density. Either provide the bandwidth during initialization or use an alternative method. ``` 図のスクショ https://www.dropbox.com/s/0xycoyi0r7vd4me/%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%BC%E3%83%B3%E3%82%B7%E3%83%A7%E3%83%83%E3%83%88%202021-02-16%208.06.31.png?dl=0
jeanbiego

2021/02/16 00:19

KDE(カーネル密度推定)の帯域幅を手動で指定しないといけない場合があるようです。(私も詳しくはないので、理論の話はご自分で調べてみてください) とりあえず、下記を試してみてください。 sns.pairplot(x_list, hue="Manhattan_dummry", diag_kws={'bw': 0.1})
YY2

2021/02/16 00:49

出来ました!、最後まで到達しました。本当にありがとうございます。 KDEの理論まではとてもまだ実力が届きませんが、学びながら進みたいと思います。 重ねて御礼申し上げます。 勿論、ベストアンサーにさせて頂きます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問