DataFrameの中から指定した範囲の日時を取り出したい

DataFrameの中から指定した範囲の日時を取り出したい。
data変数に、

NAME AGE            DATETIME  
Tom   36  2012-01-01 03:19:38   
Bob   29  2015-12-16 17:32:40
・
・
・
John  65  2014-11-21 04:16:37

という風にDataFrame型のデータが入っている。

start = "2010-05-27 13:46:27"
end = "2014-03-28 07:14:18"

と今start・end変数に文字列で日時が入っている。
start変数〜end変数の日時の間でdata変数のDATETIME カラムの中身を古いもの順に並び替えたい。
理想のアウトプットは、

NAME AGE            DATETIME  
Lucy   13  2010-06-01 04:38:49   
Kei   53  2010-08-23 17:17:24
・
・
・
Emma  47  2014-03-25 09:39:59

のように出すことである。

np.sort(data, order=['DATETIME'])

とコードを書いてDATETIMEごとにsortしようとしたがstart変数〜end変数の日時の間をどうやって絞ればいいかわからなかった。
どのようにコードを書けばそれが実現できるか？

行動規範の内容に同意します

回答3件

とりあえず値の型はおいといて、絞ってsortするコード例です。

Python
1import pandas as pd
2import numpy as np
3df = pd.DataFrame(np.arange(20)[::-1].reshape(10,2))
4print(df)
5"""
6    0   1
70  19  18
81  17  16
92  15  14
103  13  12
114  11  10
125   9   8
136   7   6
147   5   4
158   3   2
169   1   0
17"""
18df = df[(df[1] > 5) & (df[1] < 10)].sort_values(1).reset_index(drop=True)
19print(df)
20"""
21   0  1
220  7  6
231  9  8
24"""

投稿2018/05/21 14:24

can110

総合スコア38268

hayataka2049

2018/05/21 14:29 編集

そういえばSeriesの論理積は&でしたね・・・ 5 < df[1]< 10とか(5 < df[1]) and (df[1] < 10)とか試してダメだったので諦めてapplyで書いちゃいました

can110

2018/05/21 14:32

and が×で & が○というのは分かりにくい。。。けど、つい違う回答したくなる(^^; 「～.apply(lambda～」のほうが汎用性あってよいと思います～

行動規範の内容に同意します

ベストアンサー

Datetime を扱うというのであれば、Indexに設定して df[start:end] のように処理するという方法もありかと思います。

Python
1import pandas as pd
2import io
3
4# 適当に生成したデータ
5data = io.StringIO("""NAME,SEX,DATETIME,AGE
6DoiTadao,M,2009/04/26 10:14,49
7KawadaToshio,M,2012/01/14 10:29,23
8HamaguchiBunichi,M,2013/08/29 10:33,54
9TakedaShizue,F,2008/11/13 10:42,39
10SudaMana,F,2015/06/26 10:01,54
11DoiYasuo,M,2013/05/19 10:00,44
12YatsutaMasahiro,M,2011/08/04 10:55,47
13MorishitaKaoru,F,2016/12/15 10:44,45
14YazakiToshiaki,M,2015/09/21 10:34,23
15OonukiHonoka,F,2014/04/19 10:00,43
16""")
17df = pd.read_csv(data, parse_dates=['DATETIME'])
18
19# 'DATETIME'列をIndexにしてソートする
20df = df.set_index('DATETIME').sort_index()
21
22start = "2012-01-14 10:30:00"
23end = "2015-06-26 10:00:00"
24
25# 範囲指定が楽
26print(df[start:end])
27#                                 NAME SEX  AGE
28#DATETIME
29#2013-05-19 10:00:00          DoiYasuo   M   44
30#2013-08-29 10:33:00  HamaguchiBunichi   M   54
31#2014-04-19 10:00:00      OonukiHonoka   F   43
32
33# 必用であれば reset_index()でIndex指定をやめる
34print(df[start:end].reset_index())
35#             DATETIME              NAME SEX  AGE
36#0 2013-05-19 10:00:00          DoiYasuo   M   44
37#1 2013-08-29 10:33:00  HamaguchiBunichi   M   54
38#2 2014-04-19 10:00:00      OonukiHonoka   F   43

投稿2018/05/21 23:36

magichan

総合スコア15898

とりあえず、こんな感じでできませんか。

python
1>>> import pandas as pd
2>>> import numpy as np
3>>> df = pd.DataFrame(np.arange(20).reshape(10,2))
4>>> df
5    0   1
60   0   1
71   2   3
82   4   5
93   6   7
104   8   9
115  10  11
126  12  13
137  14  15
148  16  17
159  18  19
16>>> df[df[1].apply(lambda x: 5 < x < 10)]
17   0  1
183  6  7
194  8  9