質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.33%

  • Python 3.x

    7404questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • pandas

    677questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

  • for

    257questions

    for文は、様々なプログラミング言語で使われている制御構造です。for文に定義している条件から外れるまで、for文内の命令文を繰り返し実行します。

  • COUNT

    19questions

    COUNT は、広く使用されているSQLの関数です。COUNT関数は、行数、もしくは配列のエンティティの数をカウントします。

Python DataFrame:ランキング順で番号を割り振るようにしたい

解決済

回答 1

投稿

  • 評価
  • クリップ 1
  • VIEW 2,734

Wondering

score 3

前提・実現したいこと

Pythonで、あるマーケティングキャンペーンのCSVファイルを読み込み、DataFrameにあてはめた、以下のデータがあります。
イメージ説明

やりたいこととしては、
このCOUNTRY_NAMEのカラムを集計して、利用国の多い順番に上から、順次に番号をふり、その番号を割り振ったものを、新たなカラムとして追加したいのです。

試したこと

以下のコードを実行し各国利用のデータ情報は明らかにできました。
from collections import Counter
data=marketdata['COUNTRY_NAME']
counter = Counter(data)
for word, cnt in counter.most_common():
print word, cnt
イメージ説明
この17か国の各国に番号を順番に割り当て、その番号を新たなカラムに表示したいです。マッピングを使えば、結果としてはほしいものを出せましたが、以下の通り、すごく手間です。
(書いたコード)
COUNTRY_mapping={'Argentina':2,'Brazil':4, 'Canada':8,'China':13,'Denmark':11,'France':15,'Germany':7,'Italy':3,'Japan':14,'New Zealand':12,'Poland':5,'Saudi Arabia':9,'Singapore':10,'Spain':16, 'Turkey':17, 'United Kingdom':6,'United States of America':1}
marketdata['Rank_COUNTRY_NAME'] = marketdata['COUNTRY_NAME'].map(COUNTRY_mapping)

(得た結果)
イメージ説明
最終的にしたい形はこれなのですが、手動で国名をひとつひとつかいて、番号を割り振ったのであまり効率的ではありません。これをループか何かで簡単に変換して表示する方法はないでしょうか。

エラーメッセージ :ありません


色々と他にもやってみましたが、どうしても形になりませんでした。どうかよろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+2

groupby と rank 関数で目的のデータを取得して 最終的にmergeメソッドでもとのdataframeと結合してみました。

df = pd.read_csv('test.csv')
df2 = df.groupby('COUNTRY_NAME').size().rank(
  ascending=False,
  method='first'
).astype(int).reset_index(name='RANK')
df = df.merge(df2, right_index=True, on='COUNTRY_NAME').sort()

test.csvの中身

0      F   41   NeverM          USA
1      M   30   NeverM       Brazil
2      F   21  Married          USA
3      M   40   NeverM        Japan
4      F   21  Married        Japan
5      M   40   NeverM          USA
6      M   40   NeverM        China
7      F   21  Married        China

実行結果

  GENDER  AGE   STATUS COUNTRY_NAME  RANK
0      F   41   NeverM          USA     1
1      M   30   NeverM       Brazil     4
2      F   21  Married          USA     1
3      M   40   NeverM        Japan     3
4      F   21  Married        Japan     3
5      M   40   NeverM          USA     1
6      M   40   NeverM        China     2
7      F   21  Married        China     2

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/04/04 10:55

    横から失礼します。
    質問のChina,Japanの例のように、同数の場合は連番を振らないといけないようです。。。

    キャンセル

  • 2017/04/04 10:58

    なるほど... 見落としてました...ご指摘ありがとうございます。ちょい考えます。

    キャンセル

  • 2017/04/04 11:07

    can110 さんの指摘を受けて、同数の場合も連番になるようにいたしました。

    キャンセル

  • 2017/04/04 17:31

    ありがとうございました!!!とてもとても助かりました。こういったやり方があったのですね!!たどりつけませんでした。感謝します

    キャンセル

同じタグがついた質問を見る

  • Python 3.x

    7404questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

  • pandas

    677questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

  • for

    257questions

    for文は、様々なプログラミング言語で使われている制御構造です。for文に定義している条件から外れるまで、for文内の命令文を繰り返し実行します。

  • COUNT

    19questions

    COUNT は、広く使用されているSQLの関数です。COUNT関数は、行数、もしくは配列のエンティティの数をカウントします。