質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

1185閲覧

Pandas.Dataframe2つのcsvの時刻列を一致させて読み込みたい

kei_124981

総合スコア11

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

NumPy

NumPyはPythonのプログラミング言語の科学的と数学的なコンピューティングに関する拡張モジュールです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/11/29 06:52

編集2020/11/29 12:41

以下のようなcsvがあるのですが、それぞれのcsvのスタート時刻がバラバラなので、2つのCSV同士で計算させる際に行がずれてしまいます。

2つのcsvのtime列が一致するもの同士で計算させる方法はないでしょうか?
2020-11-07 14:33:35までの小数点を除いた時刻で一致するもの同士で計算させたいです。

多分色々なやり方があるかと思いますが、アイデアを下さると幸いです。
よろしくお願いいたします。

[読み込んだDataframe1]
time price
0 2020-11-07 14:33:35.604666 1618394.0
1 2020-11-07 14:33:36.697760 1618500.0
2 2020-11-07 14:33:37.762470 1618591.0
3 2020-11-07 14:33:38.868721 1618716.0
4 2020-11-07 14:33:39.968685 1618610.0
... ... ...
19168 2020-11-07 20:33:30.354527 1620369.0
19169 2020-11-07 20:33:31.442905 1620367.0
19170 2020-11-07 20:33:32.529267 1620483.0
19171 2020-11-07 20:33:33.653624 1620606.0
19172 2020-11-07 20:33:34.774001 1620653.0

[読み込んだDataframe2]
time price
0 2020-11-07 14:33:36.304415 1605085.0
1 2020-11-07 14:33:37.362915 1605085.0
2 2020-11-07 14:33:38.417302 1605085.0
3 2020-11-07 14:33:39.492559 1605143.0
4 2020-11-07 14:33:40.567851 1605143.0
... ... ...
20185 2020-11-07 20:33:31.681769 1607512.0
20186 2020-11-07 20:33:32.746142 1607512.0
20187 2020-11-07 20:33:33.796543 1607738.0
20188 2020-11-07 20:33:34.845943 1607738.0
20189 2020-11-07 20:33:35.929324 1607738.0

[csvの読み込みと計算]

Python

1import numpy as np 2import pandas as pd 3 4#読み込みデータ1 5input_dir = "****" 6input_filename = f"*****" 7input_encoding = "shift_jis" 8output_dir = "" 9data = pd.read_csv(input_dir + input_filename, encoding=input_encoding, usecols = [1, 2]) 10 11price = pd.read_csv(input_dir + input_filename, encoding=input_encoding, usecols = [2]) 12 13#読み込みデータ2 14input_dir2= "*********" 15input_filename2= f"***************" 16input_encoding2= "shift_jis" 17output_dir2= "" 18data2 = pd.read_csv(input_dir2 + input_filename2, encoding=input_encoding2, usecols = [1, 2]) 19 20price2 = pd.read_csv(input_dir2 + input_filename2, encoding=input_encoding2, usecols = [2]) 21 22#行いたい計算 23print((price / price2)*100)

[上記の計算で出力されたもの]
0行目が、dataframe1の「2020-11-07 14:33:35.604666 」と
dataframe2の「2020-11-07 14:33:36.304415」を計算しているので2秒ずれた状態で計算してしまっている。
price
0 100.829177
1 100.835781
2 100.841451
3 100.845594
4 100.838991
... ...
20185 NaN
20186 NaN
20187 NaN
20188 NaN
20189 NaN

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

can110

2020/11/29 09:47

どのような計算を行いたいのかが分かりません。 単純な入力例と欲しい結果、およびその計算方法、規則を記載ください。
Daregada

2020/11/29 10:49

> 同じDatatimeの数字同士 見たところ、同じDatetimeのデータはひとつもないのですが、小数点以下(マイクロ秒)の部分は無視するということかな? そこらへんをはっきり質問に書きましょう。
meg_

2020/11/29 13:32

まずミリ秒以下を0にする方法を調べてみると良いかと思います。
guest

回答1

0

ベストアンサー

2つのCSVファイルのどちらも、

  • read_csvする際にオプション引数のparse_datesでtime列を指定するか、読み込んだ後でto_datetimeで変換するかして、Timestamp型(datetime64[ns])に変換しておく。
  • データフレームのtime列のミリ秒(小数点以下)の値をTimestamp.replaceを使って0にする。
  • set_indexで(ミリ秒以下をなくした)time列をインデックスに指定する。

という処理を行なってから、列方向にconcatすれば、同じインデックスを持つデータが横に並んだデータフレームができます。あとは、普通に行ごとの数値を計算してください。

Python

1import pandas as pd 2import io 3 4txt1 = """ 5time,price 62020-11-07 14:33:35.604666,1618394.0 72020-11-07 14:33:36.697760,1618500.0 82020-11-07 14:33:37.762470,1618591.0 92020-11-07 14:33:38.868721,1618716.0 102020-11-07 14:33:39.968685,1618610.0 112020-11-07 20:33:30.354527,1620369.0 122020-11-07 20:33:31.442905,1620367.0 132020-11-07 20:33:32.529267,1620483.0 142020-11-07 20:33:33.653624,1620606.0 152020-11-07 20:33:34.774001,1620653.0 16""" 17 18txt2 = """ 19time,price2 202020-11-07 14:33:36.304415,1605085.0 212020-11-07 14:33:37.362915,1605085.0 222020-11-07 14:33:38.417302,1605085.0 232020-11-07 14:33:39.492559,1605143.0 242020-11-07 14:33:40.567851,1605143.0 252020-11-07 20:33:31.681769,1607512.0 262020-11-07 20:33:32.746142,1607512.0 272020-11-07 20:33:33.796543,1607738.0 282020-11-07 20:33:34.845943,1607738.0 292020-11-07 20:33:35.929324,1607738.0 30""" 31 32df1 = pd.read_csv(io.StringIO(txt1), parse_dates=['time']) 33df2 = pd.read_csv(io.StringIO(txt2), parse_dates=['time']) 34 35df1['time'] = df1['time'].map(lambda x: x.replace(microsecond=0)) 36df2['time'] = df2['time'].map(lambda x: x.replace(microsecond=0)) 37 38df1.set_index('time', inplace=True) 39df2.set_index('time', inplace=True) 40dfm = pd.concat((df1, df2), axis=1) 41 42dfm['calc'] = dfm['price'] / dfm['price2'] * 100 43print(dfm)

result

1 price price2 calc 2time 32020-11-07 14:33:35 1618394.0 NaN NaN 42020-11-07 14:33:36 1618500.0 1605085.0 100.835781 52020-11-07 14:33:37 1618591.0 1605085.0 100.841451 62020-11-07 14:33:38 1618716.0 1605085.0 100.849239 72020-11-07 14:33:39 1618610.0 1605143.0 100.838991 82020-11-07 14:33:40 NaN 1605143.0 NaN 92020-11-07 20:33:30 1620369.0 NaN NaN 102020-11-07 20:33:31 1620367.0 1607512.0 100.799683 112020-11-07 20:33:32 1620483.0 1607512.0 100.806899 122020-11-07 20:33:33 1620606.0 1607738.0 100.800379 132020-11-07 20:33:34 1620653.0 1607738.0 100.803303 142020-11-07 20:33:35 NaN 1607738.0 NaN

投稿2020/11/29 13:49

Daregada

総合スコア11990

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

bsdfan

2020/11/29 23:55

ミリ秒以下の切り捨てには、 df1['time'] = df1['time'].dt.floor('s') も使えます。
kei_124981

2020/11/30 02:24

ご回答ありがとうございます! 無事やりたいことができました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問