質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.78%

numpyのhistogram2dでbin内の中央値を利用する方法

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,684

score 5

前提・実現したいこと

(x, y)座標と特定の値valueのカラムで構成されたデータが手元にあり、これをもとに二次元のカラーメッシュを作ろうとしています。具体的には、xy座標をもとにグリッドを作成し、それぞれのグリッドに含まれるデータポイントのvalueの合計値、平均値、中央値に基づいたカラーメッシュが作りたいです。
合計値、平均値は以下の方法で計算できました。

import numpy as np
import pandas as pd

step = 5
xx = np.arange(0, 200+step, step)
yy = np.arange(0, 200+step, step)

df = pd.read_csv(data_path)

# 合計値
sum_hist, _x, _y = np.histogram2d(df['x'], df['y'], bins=(xx, yy), weights=df['value'])
# 平均値
count, _x, _y = np.histogram2d(df['x'], df['y'], bins=(xx, yy))
mean_hist = np.divide(sum_hist, count)


sum_histmean_histにはそれぞれ、xxyyに基づいて分割されたデータポイントの持つvalueの合計値、平均値がそれぞれのグリッドに格納された二次元配列が生成されています。histogram2dはweightを入力するとグリッド内のデータの持つ合計値、入力しないとグリッド内の単純なデータ数が計算されるため、np.divideを使ってやればグリッド内のvalueの平均値が計算できます。

発生している問題

これと似たようなnpの関数を使って(つまり、Pythonネイティブのfor-loopを利用せず)各グリッド内のvalueの中央値を計算する方法はあるでしょうか?中央値を計算するにはどうしてもグリッド内のデータを整列する必要があるため、histogram2dをそのまま使う方法は思いつきませんでした。データが巨大なため、for-loopを使うのはとても遅くなってしまいます。numpyに詳しい方、あるいはアルゴリズムに詳しい方、ご教授お願いします。

環境

バグではないので関係はないと思いますが、環境はpython3.7, numpy1.15です。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

scipy.stats.binned_statistic_2d をお使いください。
この関数を使用すると、ビンごとの平均、中央値、和の計算が行えます。

コード

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binned_statistic_2d


np.random.seed(1)

x, y, z = np.random.uniform(0, 10, (3, 1000))

# ビン
xbins = np.linspace(0, 10, 11)
ybins = np.linspace(0, 10, 11)

# 合計値
sum_, xedges, yedges, binnumber = binned_statistic_2d(
    x, y, z, statistic="sum", bins=(xbins, ybins)
)

# 中央地
median, xedges, yedges, binnumber = binned_statistic_2d(
    x, y, z, statistic="median", bins=(xbins, ybins)
)

# 平均値
mean, xedges, yedges, binnumber = binned_statistic_2d(
    x, y, z, statistic="mean", bins=(xbins, ybins)
)

fig, [ax1, ax2, ax3] = plt.subplots(1, 3, figsize=(10, 3))
ax1.pcolormesh(sum_)
ax1.set_title("sum")

ax2.pcolormesh(median)
ax2.set_title("median")

ax3.pcolormesh(mean)
ax3.set_title("mean")

plt.show()

イメージ説明

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.78%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る