質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.36%

ラベル別ランキングをラベル数で割ったデータを求めたい

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 343

Forestone

score 11

前提・実現したいこと

以下のようなラベルと元データに対して、ラベル別にランキングを付けた上で
ランク値=ラベル別ランキング/ラベル別のデータ数
としてデータを返したいと考えています。

ラベル 元データ (返す値)ランク値
A 2.1 0.333(=1/3)
A -1.5 1(=3/3)
A -0.1 0.666=(2/3)
B 0.1 0.5(=3/6)
B 4.5 0.167(=1/6)
B -3.0 1(=6/6)
B 1.1 0.333(=2/6)
B -0.3 0.666(=4/6)
B -0.7 0.833(=5/6)
C -0.4 4/n
・・・ ・・・

発生している問題・エラーメッセージ

ラベルに含まれるデータ数がラベルによって違うため
ランク値=ラベル別ランキング/最も多いデータ数を持つラベルのデータ数
となってしまいます。
(下記はラベル「B」が最大のデータ数を持つものであった場合)
ラベル 元値 ランク値
A 2.1 0.167(=1/6)
A -1.5 0.5(=3/6)
A -0.1 0.333=(2/6)
B 0.1 0.5(=3/6)
B 4.5 0.167(=1/6)
B -3.0 1(=6/6)
B 1.1 0.333(=2/6)
・・・ ・・・

該当のソースコード

#イメージです
import pandas as pd

dataframe = ({'rabel': ['A','A','A','B','B','B','B','B','B'],
                   'value': [2.1, -1.5, -0.1, 4.5, -3.0, 1.1, -0.3, -0.7, -0.4]})
dataframe = pd.DataFrame(dataframe)

divmax = lambda x: x / (x.max())
rank_data = dataframe.groupby(['rabel'])['value'].rank().transform(divmax)
rank_data

試したこと

別にラベルごとにデータ数の取得を行って割ればいいのですが、綺麗に処理する方向が分かりません。
上の処理を(データフレームを引数とした)関数にしたいのでなるべく簡素に書ければと思います。
よろしくお願いします。

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。 列1 列2 列3
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+2

やりたいことは、こういうことですかね

import pandas as pd

df = pd.DataFrame({
    'label': ['A','A','A','B','B','B','B','B','B'],
    'value': [2.1, -1.5, -0.1, 4.5, -3.0, 1.1, -0.3, -0.7, -0.4]})

df['lavel_value'] = df.groupby('label').apply(lambda d:d[['value']].rank(ascending=False) / len(d))
print(df)
#  label  value  lavel_value
#0     A    2.1     0.333333
#1     A   -1.5     1.000000
#2     A   -0.1     0.666667
#3     B    4.5     0.166667
#4     B   -3.0     1.000000
#5     B    1.1     0.333333
#6     B   -0.3     0.500000
#7     B   -0.7     0.833333
#8     B   -0.4     0.666667

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/05/21 20:22

    まさにこういう状態です!ありがとうございます。

    キャンセル

0

dataframe = ({'rabel': ['A','A','A','B','B','B','B','B','B'],
                'value': [2.1, -1.5, -0.1, 4.5, -3.0, 1.1, -0.3, -0.7, -0.4]})
dataframe = pd.DataFrame(dataframe)

# 特定の要素の数をカウント
count = (dataframe['rabel'] == 'A').sum()
print(count)
# 3


こんな感じで要素数はカウントできると思います。
プログラムの説明についてはこちらのサイトに丸投げします。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/05/20 21:10

    あとどうでもいいですがrabelではなくlabelですね。

    キャンセル

  • 2019/05/21 20:23

    rabelですね、すみません。
    数値は教えていただいたコードで取れましたが、ラベルの数が大量かつ可変なので、綺麗に処理するにはどうしたものかなと・・・。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.36%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る