二次元のndarrayにおいて、値が大きい上位N％の要素の平均を計算したい

実現したいこと

前提

二次元のndarrayがあったときに、全要素の上位N％の要素のみの平均を計算したいです。
例えば以下の4×5のndarrayだった場合、上位20％であれば該当する要素は 4 4 4 4 なので平均は4と出力し、
上位25％では 4 4 4 4 3 なので平均は3.8と出力するイメージです

[[1 1 1 1 1]
[2 2 2 2 2]
[3 3 3 3 3]
[4 4 4 4 4]]

np.percentileを用いて実装しようとしたのですが、同じ値が多かったりするとうまくいきません。
何か良い実装方法はないでしょうか。よろしくお願いいたします。

発生している問題・エラーメッセージ

エラーメッセージ

該当のソースコード

ソースコード

試したこと

ここに問題に対して試したことを記載してください。

補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

meg_

2023/11/19 12:56

> 例えば以下の4×5のndarrayだった場合、上位20％であれば該当する要素は 4 4 4 4 なので平均は4と出力し、上位25％では 4 4 4 4 3 なので平均は3.8と出力するイメージですその頭の中での計算手順をコードにしてみてはどうでしょうか？

pynoob

2023/11/19 13:21

これは計算手順なのでしょうか、、、？それをうまくコードにできなくて質問させていただいているのですが。

meg_

2023/11/19 14:35

> それをうまくコードにできなくて質問させていただいているのですが。「それ」が（計算手順の）どの箇所のことで「うまくコードにできなくて」がどのようにできないのか分かるようにすると回答がつきやすくなるかと思いました。ですが既に回答が1件ついていますのでそちらの方法を試していただければそれで解決するかもしれませんね。

行動規範の内容に同意します

回答2件

ベストアンサー

関数としての記述例を下記に示します。

なお，対象個数の計算「全個数ｘ割合」の端数処理は round() を用いたので偶数への丸めです。

また，上位 25% が [4, 4, 4, 4, 3] になるように配列 arr を修正しました。

Python
1import numpy as np
2
3def mean_top(N, a):
4    x = np.sort(a.ravel())[::-1]
5    n = round(len(x) * N / 100)
6    return x[:n].mean() if n > 0 else None
7
8arr = np.array([[1, 1, 1, 1, 1],
9                [2, 2, 2, 2, 2],
10                [3, 3, 3, 3, 3],
11                [4, 4, 4, 4, 3],])  # revised: 4 -> 3
12
13print(mean_top(20, arr))
14# 4.0
15print(mean_top(25, arr))
16# 3.8

投稿2023/11/24 14:10

little_street

総合スコア437

例えば以下の4×5のndarrayだった場合、上位20％であれば該当する要素は 4 4 4 4 なので平均は4と出力し、上位25％では 4 4 4 4 3 なので平均は3.8と出力するイメージです

上位25%は [4, 4, 4, 4, 4] になりますので、平均値は 4.0 になります。

python
1import numpy as np
2
3arr = np.array([
4    [1, 1, 1, 1, 1],
5    [2, 2, 2, 2, 2],
6    [3, 3, 3, 3, 3],
7    [4, 4, 4, 4, 4],
8])
9size = np.prod(arr.shape)
10
11print(np.mean(np.sort(arr.ravel())[-int(np.ceil(size*0.2)):]))
12# 上位25%
13print(np.mean(np.sort(arr.ravel())[-int(np.ceil(size*0.25)):]))
14
15# 4.0
16# 4.0

投稿2023/11/19 13:27

編集2023/11/19 14:36

melian

総合スコア21118

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

二次元のndarrayにおいて、値が大きい上位N％の要素の平均を計算したい

実現したいこと

前提

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問