質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

アルゴリズム

アルゴリズムとは、定められた目的を達成するために、プログラムの理論的な動作を定義するものです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

1832閲覧

numpyのhistogram2dでbin内の中央値を利用する方法

dedededaio

総合スコア5

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

アルゴリズム

アルゴリズムとは、定められた目的を達成するために、プログラムの理論的な動作を定義するものです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/09/09 03:37

編集2019/09/09 03:47

前提・実現したいこと

(x, y)座標と特定の値valueのカラムで構成されたデータが手元にあり、これをもとに二次元のカラーメッシュを作ろうとしています。具体的には、xy座標をもとにグリッドを作成し、それぞれのグリッドに含まれるデータポイントのvalueの合計値、平均値、中央値に基づいたカラーメッシュが作りたいです。
合計値、平均値は以下の方法で計算できました。

python

1import numpy as np 2import pandas as pd 3 4step = 5 5xx = np.arange(0, 200+step, step) 6yy = np.arange(0, 200+step, step) 7 8df = pd.read_csv(data_path) 9 10# 合計値 11sum_hist, _x, _y = np.histogram2d(df['x'], df['y'], bins=(xx, yy), weights=df['value']) 12# 平均値 13count, _x, _y = np.histogram2d(df['x'], df['y'], bins=(xx, yy)) 14mean_hist = np.divide(sum_hist, count)

sum_histmean_histにはそれぞれ、xxyyに基づいて分割されたデータポイントの持つvalueの合計値、平均値がそれぞれのグリッドに格納された二次元配列が生成されています。histogram2dはweightを入力するとグリッド内のデータの持つ合計値、入力しないとグリッド内の単純なデータ数が計算されるため、np.divideを使ってやればグリッド内のvalueの平均値が計算できます。

発生している問題

これと似たようなnpの関数を使って(つまり、Pythonネイティブのfor-loopを利用せず)各グリッド内のvalueの中央値を計算する方法はあるでしょうか?中央値を計算するにはどうしてもグリッド内のデータを整列する必要があるため、histogram2dをそのまま使う方法は思いつきませんでした。データが巨大なため、for-loopを使うのはとても遅くなってしまいます。numpyに詳しい方、あるいはアルゴリズムに詳しい方、ご教授お願いします。

環境

バグではないので関係はないと思いますが、環境はpython3.7, numpy1.15です。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

scipy.stats.binned_statistic_2d をお使いください。
この関数を使用すると、ビンごとの平均、中央値、和の計算が行えます。

コード

python

1import numpy as np 2import matplotlib.pyplot as plt 3from scipy.stats import binned_statistic_2d 4 5 6np.random.seed(1) 7 8x, y, z = np.random.uniform(0, 10, (3, 1000)) 9 10# ビン 11xbins = np.linspace(0, 10, 11) 12ybins = np.linspace(0, 10, 11) 13 14# 合計値 15sum_, xedges, yedges, binnumber = binned_statistic_2d( 16 x, y, z, statistic="sum", bins=(xbins, ybins) 17) 18 19# 中央地 20median, xedges, yedges, binnumber = binned_statistic_2d( 21 x, y, z, statistic="median", bins=(xbins, ybins) 22) 23 24# 平均値 25mean, xedges, yedges, binnumber = binned_statistic_2d( 26 x, y, z, statistic="mean", bins=(xbins, ybins) 27) 28 29fig, [ax1, ax2, ax3] = plt.subplots(1, 3, figsize=(10, 3)) 30ax1.pcolormesh(sum_) 31ax1.set_title("sum") 32 33ax2.pcolormesh(median) 34ax2.set_title("median") 35 36ax3.pcolormesh(mean) 37ax3.set_title("mean") 38 39plt.show()

イメージ説明

投稿2019/09/09 05:02

tiitoi

総合スコア21956

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問