ラベル別ランキングをラベル数で割ったデータを求めたい
解決済
回答 2
投稿
- 評価
- クリップ 0
- VIEW 343
前提・実現したいこと
以下のようなラベルと元データに対して、ラベル別にランキングを付けた上で
ランク値=ラベル別ランキング/ラベル別のデータ数
としてデータを返したいと考えています。
ラベル | 元データ | (返す値)ランク値 |
---|---|---|
A | 2.1 | 0.333(=1/3) |
A | -1.5 | 1(=3/3) |
A | -0.1 | 0.666=(2/3) |
B | 0.1 | 0.5(=3/6) |
B | 4.5 | 0.167(=1/6) |
B | -3.0 | 1(=6/6) |
B | 1.1 | 0.333(=2/6) |
B | -0.3 | 0.666(=4/6) |
B | -0.7 | 0.833(=5/6) |
C | -0.4 | 4/n |
・・・ | ・・・ |
発生している問題・エラーメッセージ
ラベルに含まれるデータ数がラベルによって違うため
ランク値=ラベル別ランキング/最も多いデータ数を持つラベルのデータ数
となってしまいます。
(下記はラベル「B」が最大のデータ数を持つものであった場合)
ラベル | 元値 | ランク値 |
---|---|---|
A | 2.1 | 0.167(=1/6) |
A | -1.5 | 0.5(=3/6) |
A | -0.1 | 0.333=(2/6) |
B | 0.1 | 0.5(=3/6) |
B | 4.5 | 0.167(=1/6) |
B | -3.0 | 1(=6/6) |
B | 1.1 | 0.333(=2/6) |
・・・ | ・・・ |
該当のソースコード
#イメージです
import pandas as pd
dataframe = ({'rabel': ['A','A','A','B','B','B','B','B','B'],
'value': [2.1, -1.5, -0.1, 4.5, -3.0, 1.1, -0.3, -0.7, -0.4]})
dataframe = pd.DataFrame(dataframe)
divmax = lambda x: x / (x.max())
rank_data = dataframe.groupby(['rabel'])['value'].rank().transform(divmax)
rank_data
試したこと
別にラベルごとにデータ数の取得を行って割ればいいのですが、綺麗に処理する方向が分かりません。
上の処理を(データフレームを引数とした)関数にしたいのでなるべく簡素に書ければと思います。
よろしくお願いします。
補足情報(FW/ツールのバージョンなど)
ここにより詳細な情報を記載してください。 | 列1 | 列2 | 列3 |
---|---|---|---|
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+2
やりたいことは、こういうことですかね
import pandas as pd
df = pd.DataFrame({
'label': ['A','A','A','B','B','B','B','B','B'],
'value': [2.1, -1.5, -0.1, 4.5, -3.0, 1.1, -0.3, -0.7, -0.4]})
df['lavel_value'] = df.groupby('label').apply(lambda d:d[['value']].rank(ascending=False) / len(d))
print(df)
# label value lavel_value
#0 A 2.1 0.333333
#1 A -1.5 1.000000
#2 A -0.1 0.666667
#3 B 4.5 0.166667
#4 B -3.0 1.000000
#5 B 1.1 0.333333
#6 B -0.3 0.500000
#7 B -0.7 0.833333
#8 B -0.4 0.666667
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
dataframe = ({'rabel': ['A','A','A','B','B','B','B','B','B'],
'value': [2.1, -1.5, -0.1, 4.5, -3.0, 1.1, -0.3, -0.7, -0.4]})
dataframe = pd.DataFrame(dataframe)
# 特定の要素の数をカウント
count = (dataframe['rabel'] == 'A').sum()
print(count)
# 3
こんな感じで要素数はカウントできると思います。
プログラムの説明についてはこちらのサイトに丸投げします。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.36%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
2019/05/21 20:22