質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

1030閲覧

Pythonで、DataFrameのohe_id列のユニーク値の個数がn個以上のものを抜き出して、新しくdataframeを作る というコードを、pythonで書きたいです。

shin_shin

総合スコア96

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2017/12/21 08:44

DataFrameのohe_id列のユニーク値の個数がn個以上のものを抜き出して、新しくdataframeを作る
というコードを、pythonで書きたいです。

やりたいことのイメージ
[変更前]
|id|ohe_id||
|:--|:--:||
|1|20|
|2|20|
|3|20|
|4|30|
|5|30|
|6|30|
|7|40|
|8|40|

例えば、このohe_id列のユニーク値の個数が3個以上のもので新しくDataFrameを作れるようなコードが知りたいです。以下のような感じです。
|id|ohe_id||
|:--|:--:||
|1|20|
|2|20|
|3|20|
|4|30|
|5|30|
|6|30|

「前提」
実際のデータは、ohe_idのユニーク値の個数が2000個以上あるので、できるだけohe_idのデータ値(20など)を直接参照しないやり方をご教授頂きたいです。

めんどくさい質問で大変恐縮ですが、どうぞよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

とりあえず2通りの方法を書いてみましたので、お好きな方をお使いください

import pandas as pd df = pd.DataFrame({ 'id': [1,2,3,4,5,6,7,8], 'ohe_id':[20,20,20,30,30,30,40,40] }) # 1) value_counts() の結果を map() で DataFrameに適用する方法 filter = df['ohe_id'].map(df['ohe_id'].value_counts() >= 3) print(df[filter]) # id ohe_id # 0 1 20 # 1 2 20 # 2 3 20 # 3 4 30 # 4 5 30 # 5 6 30 # 2) groupby().transform()を使う方法 filter = df.groupby('ohe_id')['id'].transform('count') >= 3 print(df[filter]) # id ohe_id # 0 1 20 # 1 2 20 # 2 3 20 # 3 4 30 # 4 5 30 # 5 6 30

投稿2017/12/21 10:43

magichan

総合スコア15898

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

shin_shin

2017/12/22 03:07

凄すぎて、感動しました。ありがとうございます。 方法1のほうが直感的にわかりやすかったので、それで対処しようと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問