pandasで読み込んだcsv内のデータを整形しif文で量の過多を判定したい

初心者です。よろしくお願いいたします。
CSVデータをpaandasで読み込み整形することまではできたのですが、
そのデータから計算する方法がわかりません。

df = pd.read_csv("s_0.csv",index_col="date" )
df.index = pd.to_datetime(df.index)
pivot_df = pd.pivot_table(df, index='date', columns='side', values='size', aggfunc=np.sum).fillna(0)
print(pivot_df)

result_df = pivot_df.resample("5S").sum()
print(result_df)

side BUY SELL
date
2019-01-19 04:20:20 10.904421 1.1320
2019-01-19 04:20:25 17.428700 3.3850
2019-01-19 04:20:30 18.434542 1.2724

このデータからBUYのほうが多い場合〇〇、SELLの方が多い場合〇〇といった条件分を作成したいです。
if result_df['buy'] > result_df['sell'] とした場合エラーがでてうまく計算できません。

YouheiSakurai

2019/01/19 09:32

「BUY*列の合計*が多い場合〇〇、SELL*列の合計*が多い場合〇〇」ということがしたいのか、「*各行に対して*BUYのほうが多い場合〇〇、SELLの方が多い場合〇〇」ということがしたいのかどちらでしょうか？

EIOkawa

2019/01/19 11:19

大変失礼致しました。各行に対しての値を求めたいです。

行動規範の内容に同意します

回答1件

ベストアンサー

pandasのDataFrameは行と列のある二次元のテーブルのようなデータ形式であることを思い出す必要があります。そして一次元のSeriesという型もあります。

result_df['buy']みたいに書くと、buy列のデータすべてがSeriesとして得られます。

（同じ長さで比較可能な）Series同士を不等号で比較すると、データ数の長さを持つブール値（True / False）のSeriesが得られます。そういうものがあると便利なんですね。

そしてこのブール値のSeriesはifの条件式に使おうとすると（スカラーのブール値に単純に変換しようとすると）エラーを吐く仕様になっています（そのままではどの要素に対して判断したら良いのかわからないし、もちろん並列にそれぞれの要素に対して分岐を計算したりもできないから。ちなみに、この仕様は「親切なことに」そうなっているのです）。

それで質問文には「条件分を作成したい」（ママ）と書いてありますが、本当は「作成してどうしたいの？」ということになります。

若干憶測含みですが、不等号がTrueのときは"hoge"でFalseのときは"fuga"のSeriesを作るとか、そういうことがやりたいとする。以下のような方法があるでしょう（いずれも動作未検証）。

python
1# 方法1
2result_df.apply(lambda s: "hoge" if s['buy'] > s['sell'] else "fuga", axis=1)
3
4# 方法2
5(result_df['buy'] > result_df['sell']).replace({True:"hoge", False:"fuga"})
6
7# 他にもありそうだがとりあえず思いついた2つだけ・・・