python: ある条件での行の削除の仕方

Question

### 前提・実現したいこと

python素人です。
現在、データ分析を実施しているところ、
2017,8,31までのデータ以外を使いたいと考えています（または2017,9,1以降のデータ（行）はすべて削除したいと考えています）。
そこで、以下のようなコードだとエラーが出てしまいます（forで回すといけるかなと思ったのですが、、、やり方がわからずです。。）
何が良い方法はございますでしょうか。何卒よろしくお願いいたします。

### 発生している問題・エラーメッセージ

```
TypeError: '<' not supported between instances of 'str' and 'datetime.datetime'
```

### 該当のソースコード

```ここに言語名を入力
dataset_events = pd.read_table("events.tsv")
dt_base = datetime.datetime(2017, 9, 1, 00, 00, 00)

dataset_events_2 = dataset_events[dataset_events["event_start_at"] < dt_base]
print(dataset_events_2)

##以下のようにforで回すとエラーは出ないのですが行の削除の仕方（もしくは行の残し方）がわかりません。。。
for i in dataset_events["event_start_at"]:
    dt = datetime.datetime.strptime(i, '%Y-%m-%d %H:%M:%S')
    if dt < dt_base:
        print(dt)
```

Accepted Answer

> TypeError: '<' not supported between instances of 'str' and 'datetime.datetime'

これは `event_start_at` が `str` なのに対して、比較しようしている、 `dt_base` が `datetime`オブジェクトなのでエラーになっています。

なので、read_tableをする時に、`event_start_at` を datetime型として取り込んであげれば良いです。 
`parse_dates` というオプションがあるので、それを指定すれば良いでです。


```python
import pandas as pd
import datetime

df = pd.read_table('events.tsv', parse_dates=['event_start_at'])
dt_base = datetime.datetime(2017, 9, 1, 00, 00, 00)

print(df)
print("-" * 10)
print(df[df["event_start_at"] < dt_base])
```

実行結果

```
  event_name      event_start_at
0     event1 2017-08-31 23:59:59
1     event2 2017-09-01 00:00:01
----------
  event_name      event_start_at
0     event1 2017-08-31 23:59:59
```


[https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html)

Answer

データを取り出す前に列の型を予めdatetime型にしておくと良いでしょう。
ここなどを参考にしてください。
[pandas datetime - Qiita](https://qiita.com/darkqueenreal/items/2651dd9a83bec1cf1909)

```python
dataset_events["event_start_at"] = pd.to_datetime(
    dataset_events["event_start_at"],format='%Y-%m-%d %H:%M:%S')
```
こんな感じでどうでしょう。

Answer

[pandas.to_datetime](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.to_datetime.html#pandas-to-datetime)にて文字列の値を`datetime`型に変換することで
`dataset_events[dataset_events["event_start_at"] < dt_base]`というコードが生かせます。
```Python
import pandas as pd
from datetime import datetime as dt
from io import StringIO

s = """
c1,c2
2017-01-23 12:34:56,1
2017-08-31 12:34:56,2
2017-09-01 12:34:56,3
"""

df = pd.read_csv( StringIO(s))
print(df)
df['c1'] = pd.to_datetime(df['c1'])
print(df)

end = dt(2017, 9, 1, 00, 00, 00)

df = df[df['c1'] < end]
print(df)
"""
                   c1  c2
0 2017-01-23 12:34:56   1
1 2017-08-31 12:34:56   2
"""
```

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

関連した質問