pandas DataFrame における indexでの参照について

###原因と対策、アドバイスをお願いします。

下記の手順において
DataFrameの作成の際にnumpy.datetime64でdate列を作成すると
NaTがあるrowはpandas._libs.tslib.Timestampに変換されてしまうため
indexの参照時にKeyErrorが発生してしまう。

なぜ NaTがあるrowがpandas._libs.tslib.Timestampnに変換されるのでしょうか？
変換されないようにするにはどうしたらよろしいでしょうか？
または、indexに複数の型が混在する下記の状況でもnp.datetime64で参照できる方法はありますか？

よろしくお願いします。

###発生している問題・エラーメッセージ

python
1KeyError: numpy.datetime64('2017-07-19T14:24:07.000000000')

###該当のソースコード

データ作成

python
1import numpy as np
2import pandas as pd
3
4dates = [
5    np.datetime64('2014-11-09 10:00:00.000000000')
6    , np.datetime64('2015-11-09 10:00:00.000000000')
7    , np.datetime64('2016-11-09 10:00:00.000000000')
8    , np.datetime64('2017-07-19 14:24:07.000000000')
9]
10
11prices = [
12    2000
13    , 1900
14    , 1800
15]
16
17df = pd.DataFrame([dates, prices], ['date', 'price']).T
18

date price
0 2014-11-09T10:00:00.000000000 2000
1 2015-11-09T10:00:00.000000000 1900
2 2016-11-09T10:00:00.000000000 1800
3 2017-07-19 14:24:07 NaT

python
1type(df.date[0])  #出力 numpy.datetime64
2type(df.date[3]) #出力 pandas._libs.tslib.Timestamp

date列をindexに設定

python
1df = df.set_index('date')

date
2014-11-09T10:00:00.000000000 2000
2015-11-09T10:00:00.000000000 1900
2016-11-09T10:00:00.000000000 1800
2017-07-19 14:24:07 NaT

indexで参照

python
1df.ix[dates[0]] #出力  price    2000
2                #        Name: 2014-11-09T10:00:00.000000000, dtype: object
3
4df.ix[dates[1]] #出力 KeyError: numpy.datetime64('2017-07-19T14:24:07.000000000')

###補足情報(言語/FW/ツール等のバージョンなど)
python: 3.5.3
pandas: 0.20.1
anaconda: 3-2.4.0

行動規範の内容に同意します

回答1件

ベストアンサー

たぶんこのように記述すると大丈夫かと思います。

Python
1import pandas as pd
2import numpy as np
3
4dates = [
5    np.datetime64('2014-11-09 10:00:00.000000000'),
6    np.datetime64('2015-11-09 10:00:00.000000000'),
7    np.datetime64('2016-11-09 10:00:00.000000000'),
8    np.datetime64('2017-07-19 14:24:07.000000000')
9]
10
11prices = [2000,1900,1800]
12
13df = pd.DataFrame({'date':pd.Series(dates), 'price':pd.Series(prices)})
14df = df.set_index("date")
15print(df)

【補足】

質問のように、４行目のみ型が違う原因は、DataFrame 作成の際に
一度

Python
1df = pd.DataFrame([dates, prices], ['date', 'price'])

とした後に、Tで転置してためかと思います。

Pandas では列毎に型が決まるため、上記のように記述すると、
datetime64型のデータとint64型のデータが同じ列にいる為に、型がobject型に変換されてしまいます。ところが４行目（この時点では４列目）だけはint64型のデータが存在しない為、この行だけdatetime64型のままでデータが保存されることとなります。

投稿2017/07/22 15:51

編集2017/07/22 16:10

magichan

総合スコア15898

ultraman

2017/07/22 16:02 編集

ご回答ありがとうございます。せっかくご回答いただいたのですが、最初のdf作成は　pd.io.sql.read_sql() 　によりDBより読み込み作成しています。（再現しやすいようにコードでの作成として質問しました。）このため、アドバイスいただいたように df = pd.DataFrame({'date':pd.Series(dates), 'price':pd.Series(prices)}) とすることができません。 DBで読み込んだ際にNaTがあるrowに対して型が変換されてしまっています。