質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

1451閲覧

Pythonで、複数の日付とデータのセットから、最も古いデータを抽出する方法

nao1

総合スコア2

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/01/25 06:06

前提・実現したいこと

行毎に最も古いデータを抽出したいと考えています。

元データフレーム(df)
||A_日付|A_データ|B_日付|B_データ|C_日付|C_データ|
|:--|:--:|--:|
|
|0|1/1 11:11:11|10|1/3 12:12:12|5|NaT|NaN|
|1|NaT|NaN|NaT|NaN|1/1 10:10:10|100|
|2|1/10 10:10:15|5|1/8 12:12:15|5|1/10 03:10:10|5|

 
処理後のデータフレームのイメージ
||A_日付|A_データ|B_日付|B_データ|C_日付|C_データ|選択日付|抽出データ|
|:--|:--:|--:|
|
|0|1/1 11:11:11|7|1/3 12:12:12|5|NaT|NaN|1/1 11:11:11|7|
|1|NaT|NaN|NaT|NaN|1/1 10:10:10|3|1/1 10:10:10|3|
|2|1/10 10:10:15|5|1/8 12:12:15|2|1/10 03:10:10|8|1/8 12:12:15|2|

0行目は、Aが1/1で最も古いので、そのデータ「7」を抽出
1行目は、Cのみにデータがあり、そのデータ「3」を抽出
2行目は、Bが1/8で最も古いので、そのデータ「2」を抽出

発生している問題・エラーメッセージ

A_日付、B_日付、C_日付から最も古い日付を抽出する為に、min関数で処理しようと考えましたが、NaTが含まれると、NaTが選択されてしまいます。

該当のソースコード

NaTが含まれない場合は、下記の記述でイメージするテーブルが作成できました。

Python

1def func(row): 2 return min(row['A_日付'], row['B_日付'], row['C_日付']) 3 4df['選択日付'] = df.apply(func, axis=1) 5 6df.loc[df['A_日付'] == df['選択日付'], '抽出データ'] = df['A_データ'] 7df.loc[df['B_日付'] == df['選択日付'], '抽出データ'] = df['B_データ'] 8df.loc[df['C_日付'] == df['選択日付'], '抽出データ'] = df['C_データ'] 9

試したこと

min関数の中に skipna=True を入れると、下記のエラーとなりました。
TypeError: 'skipna' is an invalid keyword argument for min()

お手数ですが、対処方法をご教示頂けると幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kirara0048

2021/01/25 06:41

データフレームの各列のデータ型(`df.dtypes`)を教えていただけますか。
nao1

2021/01/25 06:52

対応頂きありがとうございます。 下記の通りです。 A_日付  datetime64[ns] A_データ  float64 B_日付  datetime64[ns] B_データ  float64 C_日付  datetime64[ns] C_データ  float64 dtype: object
guest

回答1

0

ベストアンサー

方法は2通りあります。

方法1 funcという関数の中でNaTを除外した最小値を返すような処理をする。
方法2 データフレームのNaTを遠い未来の日付に変更してから処理する。

元のデータを壊したくないなら、方法1ですね。
以下のコードで大丈夫だと思います。

python

1def func(row): 2 s = set((row['A_日付'], row['B_日付'], row['C_日付'], pd.NaT)) 3 s.remove(pd.NaT) 4 return min(s)

投稿2021/01/25 07:18

編集2021/01/25 07:27
ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

nao1

2021/01/25 08:14

ppaulさん、ご回答ありがとうございました。 イメージした通りに動作しました。 ベストアンサーにさせて頂きます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問