Pandas.Dataframe2つのcsvの時刻列を一致させて読み込みたい

以下のようなcsvがあるのですが、それぞれのcsvのスタート時刻がバラバラなので、２つのCSV同士で計算させる際に行がずれてしまいます。

２つのcsvのtime列が一致するもの同士で計算させる方法はないでしょうか？
2020-11-07 14:33:35までの小数点を除いた時刻で一致するもの同士で計算させたいです。

多分色々なやり方があるかと思いますが、アイデアを下さると幸いです。
よろしくお願いいたします。

[読み込んだDataframe1]
time price
0 2020-11-07 14:33:35.604666 1618394.0
1 2020-11-07 14:33:36.697760 1618500.0
2 2020-11-07 14:33:37.762470 1618591.0
3 2020-11-07 14:33:38.868721 1618716.0
4 2020-11-07 14:33:39.968685 1618610.0
... ... ...
19168 2020-11-07 20:33:30.354527 1620369.0
19169 2020-11-07 20:33:31.442905 1620367.0
19170 2020-11-07 20:33:32.529267 1620483.0
19171 2020-11-07 20:33:33.653624 1620606.0
19172 2020-11-07 20:33:34.774001 1620653.0

[読み込んだDataframe2]
time price
0 2020-11-07 14:33:36.304415 1605085.0
1 2020-11-07 14:33:37.362915 1605085.0
2 2020-11-07 14:33:38.417302 1605085.0
3 2020-11-07 14:33:39.492559 1605143.0
4 2020-11-07 14:33:40.567851 1605143.0
... ... ...
20185 2020-11-07 20:33:31.681769 1607512.0
20186 2020-11-07 20:33:32.746142 1607512.0
20187 2020-11-07 20:33:33.796543 1607738.0
20188 2020-11-07 20:33:34.845943 1607738.0
20189 2020-11-07 20:33:35.929324 1607738.0

[csvの読み込みと計算]

Python
1import numpy as np
2import pandas as pd
3
4#読み込みデータ１
5input_dir = "****"
6input_filename = f"*****"
7input_encoding = "shift_jis"
8output_dir = ""
9data = pd.read_csv(input_dir + input_filename, encoding=input_encoding, usecols = [1, 2])
10
11price = pd.read_csv(input_dir + input_filename, encoding=input_encoding, usecols = [2])
12    
13#読み込みデータ２
14input_dir2= "*********"
15input_filename2= f"***************"
16input_encoding2= "shift_jis"
17output_dir2= ""
18data2 = pd.read_csv(input_dir2 + input_filename2, encoding=input_encoding2, usecols = [1, 2])
19
20price2 = pd.read_csv(input_dir2 + input_filename2, encoding=input_encoding2, usecols = [2])
21
22#行いたい計算
23print((price / price2)*100)

[上記の計算で出力されたもの]
０行目が、dataframe1の「2020-11-07 14:33:35.604666 」と
dataframe2の「2020-11-07 14:33:36.304415」を計算しているので2秒ずれた状態で計算してしまっている。
price
0 100.829177
1 100.835781
2 100.841451
3 100.845594
4 100.838991
... ...
20185 NaN
20186 NaN
20187 NaN
20188 NaN
20189 NaN

can110

2020/11/29 09:47

どのような計算を行いたいのかが分かりません。単純な入力例と欲しい結果、およびその計算方法、規則を記載ください。

Daregada

2020/11/29 10:49

> 同じDatatimeの数字同士見たところ、同じDatetimeのデータはひとつもないのですが、小数点以下(マイクロ秒)の部分は無視するということかな?　そこらへんをはっきり質問に書きましょう。

meg_

2020/11/29 13:32

まずミリ秒以下を0にする方法を調べてみると良いかと思います。

行動規範の内容に同意します

回答1件

ベストアンサー

2つのCSVファイルのどちらも、

read_csvする際にオプション引数のparse_datesでtime列を指定するか、読み込んだ後でto_datetimeで変換するかして、Timestamp型(datetime64[ns])に変換しておく。
データフレームのtime列のミリ秒(小数点以下)の値をTimestamp.replaceを使って0にする。
set_indexで(ミリ秒以下をなくした)time列をインデックスに指定する。

という処理を行なってから、列方向にconcatすれば、同じインデックスを持つデータが横に並んだデータフレームができます。あとは、普通に行ごとの数値を計算してください。

Python
1import pandas as pd
2import io
3
4txt1 = """
5time,price
62020-11-07 14:33:35.604666,1618394.0
72020-11-07 14:33:36.697760,1618500.0
82020-11-07 14:33:37.762470,1618591.0
92020-11-07 14:33:38.868721,1618716.0
102020-11-07 14:33:39.968685,1618610.0
112020-11-07 20:33:30.354527,1620369.0
122020-11-07 20:33:31.442905,1620367.0
132020-11-07 20:33:32.529267,1620483.0
142020-11-07 20:33:33.653624,1620606.0
152020-11-07 20:33:34.774001,1620653.0
16"""
17
18txt2 = """
19time,price2
202020-11-07 14:33:36.304415,1605085.0
212020-11-07 14:33:37.362915,1605085.0
222020-11-07 14:33:38.417302,1605085.0
232020-11-07 14:33:39.492559,1605143.0
242020-11-07 14:33:40.567851,1605143.0
252020-11-07 20:33:31.681769,1607512.0
262020-11-07 20:33:32.746142,1607512.0
272020-11-07 20:33:33.796543,1607738.0
282020-11-07 20:33:34.845943,1607738.0
292020-11-07 20:33:35.929324,1607738.0
30"""
31
32df1 = pd.read_csv(io.StringIO(txt1), parse_dates=['time'])
33df2 = pd.read_csv(io.StringIO(txt2), parse_dates=['time'])
34
35df1['time'] = df1['time'].map(lambda x: x.replace(microsecond=0))
36df2['time'] = df2['time'].map(lambda x: x.replace(microsecond=0))
37
38df1.set_index('time', inplace=True)
39df2.set_index('time', inplace=True)
40dfm = pd.concat((df1, df2), axis=1)
41
42dfm['calc'] = dfm['price'] / dfm['price2'] * 100
43print(dfm)

result
1                        price     price2        calc
2time
32020-11-07 14:33:35  1618394.0        NaN         NaN
42020-11-07 14:33:36  1618500.0  1605085.0  100.835781
52020-11-07 14:33:37  1618591.0  1605085.0  100.841451
62020-11-07 14:33:38  1618716.0  1605085.0  100.849239
72020-11-07 14:33:39  1618610.0  1605143.0  100.838991
82020-11-07 14:33:40        NaN  1605143.0         NaN
92020-11-07 20:33:30  1620369.0        NaN         NaN
102020-11-07 20:33:31  1620367.0  1607512.0  100.799683
112020-11-07 20:33:32  1620483.0  1607512.0  100.806899
122020-11-07 20:33:33  1620606.0  1607738.0  100.800379
132020-11-07 20:33:34  1620653.0  1607738.0  100.803303
142020-11-07 20:33:35        NaN  1607738.0         NaN