データフレーム中のある列が同じ値同士括り、その中で一番小さい行以外を削除する By Python

#前提
いつもお世話になっております。またデータフレームの操作について質問させて頂きます。

次のようなデータフレームがあるとします。

データフレームの列名はそれぞれ

cost ：ある材料を入れて機械を動かしたときのコスト
machine ：機械の種類
material_ID ：材料の種類

を表しているとします。

#実現したいこと
箇条書すると
0. 同じ'machine'（機械の種類）で括り，
0. その中で'cost'が一番小さいものだけを残し
0. それ以外はすべて削除する
ということがしたいです。

最終型としては次のようになるはずです。

   cost machine  material_ID
0   100       A            1
4   100       B            1
6   200       C            2

#試したこと
最初はグループ機能（DataFrame.groupby）などを使って実現できないかを模索しましたが，うまく行かず結局Forループを駆使してみましたが，それでもうまく行きませんでした。

下にForループを使って試したコードを記載しますが，別にForループにこだわっている訳ではなく、なるべく簡単に書ければいいなと思っています。個人的にはグループを使うのが一番早いかな、と思っておりますが、妙案があれば教えていただければと思っています。

python
1import pandas as pd
2
3# データフレームの定義
4df = pd.DataFrame(
5    {'machine': ['A', 'A', 'B', 'B', 'B', 'C', 'C'],
6     'cost': [100, 110, 120, 150, 100, 210, 200],
7     'material_ID': [1, 2, 2, 3, 1, 1, 2]})
8
9# Forループでひたすら削る
10for i in range(len(df)):
11    if i > 0 and df.ix[i,'machine'] == df.ix[i-1,'machine']:
12        if df.ix[i,'cost'] > df.ix[i-1,'cost'] :
13            df = df.drop(i)
14        else:
15            df = df.drop(i-1)
16            
17print(df)

エラーメッセージは次のとおりです。

KeyError: 1

行動規範の内容に同意します

回答3件

ベストアンサー

groupbyを使うなら、このような書き方でできると思います。

python
1df.loc[df.groupby('machine')['cost'].idxmin()]

machine列でグループ化したcost列を取り出し、
最小値のインデックスを取得しています。
このインデックスと元のDataFrameのインデックスを突き合わせています。

情報の絞り込みは大抵の場合、インデックスの操作でなんとかなることが多いため、
まずはインデックスの操作に慣れることをおすすめします。

投稿2017/02/04 15:21

driller

総合スコア720

pepasuke623

2017/02/04 22:33

ありがとうございます！こんな簡単に出来るんですね。勉強になりました！

行動規範の内容に同意します

皆様，回答ありがとうございます！
教わったとおり書いたら出来ました！

Python
1import pandas as pd
2
3# データフレームの定義
4df = pd.DataFrame(
5    {'machine': ['A', 'A', 'B', 'B', 'B', 'C', 'C'],
6     'cost': [100, 110, 120, 150, 100, 210, 200],
7     'material_ID': [1, 2, 2, 3, 1, 1, 2]})
8
9# 教わったところ
10df = df.loc[df.groupby('machine')['cost'].idxmin()]
11
12print(df)

結果

   cost machine  material_ID
0   100       A            1
4   100       B            1
6   200       C            2

投稿2017/02/04 22:34

pepasuke623

総合スコア55

groupbyを使用して'machine'でグループ化した後に'cost'からidxminを使用して最小のインデックスを求めます。
そのインデックスを元のDataFrameから選択するとできると思います。

Python
1df.loc[df.groupby('machine')['cost'].idxmin()]
2print(df)

投稿2017/02/04 15:23

copepoda

総合スコア324

copepoda

2017/02/04 15:31

すみません、回答を書いてる間にかぶってしまいました。上の方と全く同じ内容なのでこちらは無視してください。

pepasuke623

2017/02/04 22:33

回答ありがとうございます！下の方と同じなんで、そちらをベストアンサーとさせていただきます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

データフレーム中のある列が同じ値同士括り、その中で一番小さい行以外を削除する By Python

関連した質問