質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

1396閲覧

pandas DataFrameについて、同じ値を持つレコードに対して最新の日時のもののみを取得する方法

milcovich

総合スコア11

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/08/20 09:20

標題の通り、dataframeに対して、更新日時情報以外同じ値を持つレコードに対して最新のレコードのみを保持するためにはどのような操作を行うべきでしょうか?
具体的には以下の様なid, 使命, 入場時刻を保持したDataFrameについて、同じid, 指名を持つレコードについて最新の入場時刻のレコードのみを保持したものへと変換を行いたいです。

inputDF

1# id name entry_time 2#0 0 John 2021-08-09 15:18:00 3#1 1 Ben 2021-08-09 17:14:36 4#2 2 Lisa 2021-08-09 19:18:52 5#3 3 Mike 2021-08-10 10:23:32 6#4 1 Ben 2021-08-10 11:18:32 7#5 3 Mike 2021-08-11 15:18:32 8#6 0 John 2021-08-12 11:43:06 9#7 1 Ben 2021-08-12 15:18:32 10#8 0 John 2021-08-13 08:30:21 11#9 2 Lisa 2021-08-13 12:10:55

outputDF

1# id name entry_time 2#0 0 John 2021-08-13 08:30:21 3#1 1 Ben 2021-08-12 15:18:32 4#2 2 Lisa 2021-08-13 12:10:55 5#3 3 Mike 2021-08-11 15:18:32

1行ずつレコードを取り出して、同じid, nameを持つものに対して比較を行うというのが思い浮かびはしましたが、計算量的にもっとスマートなやり方があるのではないかと思い起票させていただきました。
有識者の方がいらっしゃいましたらご教授いただければ幸いです、どうぞよろしくお願いいたしますmm

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

こういうケースではgroupbyが使えます。

Python

1import pandas as pd 2from io import StringIO 3 4s = """id,name,entry_time 50,John,2021-08-09 15:18:00 61,Ben,2021-08-09 17:14:36 72,Lisa,2021-08-09 19:18:52 83,Mike,2021-08-10 10:23:32 91,Ben,2021-08-10 11:18:32 103,Mike,2021-08-11 15:18:32 110,John,2021-08-12 11:43:06 121,Ben,2021-08-12 15:18:32 130,John,2021-08-13 08:30:21 142,Lisa,2021-08-13 12:10:55""" 15df = pd.read_csv(StringIO(s), parse_dates=['entry_time']) 16 17df_ret = df.groupby(['id','name']).max().reset_index() # max=最新 18print(df_ret)

投稿2021/08/20 10:27

can110

総合スコア38341

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

milcovich

2021/08/21 12:27

なるほどです、ご回答ありがとうございますmm
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問