Dataframe.queryの結果がカラム名によって異なる

前提

カラム名によって違いが生じる原因を調査しています。

顧客情報（customer_id）と売上日（sales_ymd）を持つ df_receipt というDataframeがあります。
sales_ymd が複数ある状況で、customer_id 毎に最新と最古の sales_ymd が異なるものを抽出したく考えています。

下記のように書いたものは正常に動作します。

df_tmp = df_receipt.groupby('customer_id').agg({'sales_ymd':['max','min']}).reset_index()
df_tmp.columns = ['customer_id', 'sales_max', 'sales_min']
df_tmp.query('sales_max != sales_min')

一方で、カラム名をmax、minとした時、それぞれが同じものも返されてしまいます。（query部分が想定通り動いていません。）

df_tmp = df_receipt.groupby('customer_id').agg({'sales_ymd':['max','min']}).reset_index()
df_tmp.columns = ['customer_id', 'max', 'min']
df_tmp.query('max != min')

カラム名が異なるだけなので予約後が関係しているかと思われるのですが、内部でどのように処理が行われているのか調べてもわからず、ご教示いただきたく考えております。
初歩的で恐縮ですが何卒よろしくお願いいたします。

melian

2023/01/21 10:31

参考までに、適当にデータフレームを作成して Python 3.10.6/Pandas 1.5.3 で実行してみましたが、どちらも同じ結果になりました。

行動規範の内容に同意します

回答2件

試してみたところ、query の engine に python を使うか、numexpr を使うかで、動きが違っていますね。
(pandas 1.5.3, numexpr 2.8.4)
engine のデフォルトは、numexpr がインストールされている場合は numexpr を使って、インストールされていない場合は python になるはずです。

この例で、pandas と numexpr のそれぞれがどう動いているのか、ドキュメントを探ってもよくわかりませんでした。numexpr が max と min を変数(カラム名)としてではなく、予約された関数名として扱っていて max != min → True としていそうな気がします。
対処法としては、下記のようになるのかと思います。
①maxとかminとかのカラム名を使わない
②queryを使わない (booleanインデックスを使う)
③engine='python' にする (これで確実に大丈夫なのかは不明)

python
1import pandas as pd
2
3df = pd.DataFrame({
4    'cid': ['a', 'b', 'c'],
5    'min': [1, 2, 3],
6    'max': [1, 3, 5],
7})
8
9print(df.query('min != max', engine='numexpr'))
10#  cid  min  max
11#0   a    1    1
12#1   b    2    3
13#2   c    3    5
14print(df.query('min != max', engine='python'))
15#  cid  min  max
16#1   b    2    3
17#2   c    3    5

追記

numexpr の evaluate に local_dict で渡しても、max を変数としては扱ってくれませんでした。
なので、numexpr の予約語扱いになっているものは、うまく扱えないんじゃないでしょうか。
(何が予約語扱いなのかが不明ですが・・・)

python
1import numexpr as ne
2
3ne.evaluate('max', local_dict={'max': 1})
4# TypeError: unsupported expression type: <class 'function'>

投稿2023/01/22 10:49

編集2023/01/22 12:01

bsdfan

総合スコア4899

動作未検証ですがPandas query function not working with spaces in column namesの回答のように列名をバッククオートで囲むことで、正しく列名として識別されて動作するかもしれません（しないかもしれません）

ただいずれにせよ、maxなどの予約語を列名とするのは可能であれば避けたほうがよいと思います。
参考：Alternatives to pandas.query() when the column name is a Python keyword (import, sum, min etc)?

投稿2023/01/22 03:12

8524ba23

総合スコア38352

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Dataframe.queryの結果がカラム名によって異なる

前提

追記

関連した質問