質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

996閲覧

DataframeでIDごとに特定の条件を設定し、datasetを作りたい、、、

Pablito

総合スコア71

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2019/08/15 02:02

編集2019/08/15 03:00

前提・実現したいこと

購買と顧客データを使ってJupyter Notebook上でデータ加工をしています。
現在は、購買と顧客データを統合したデータから、
IDごとに最初の購入チャネルがアウトレット店だった行を
抽出したいと考えています。

そこで自分で考えたコードを書いてみましたが、
エラーが起きるし、
そもそもやりたいことと違うことをやっている気がしてなりません。

発生している問題・エラーメッセージ

KeyError Traceback (most recent call last) c:\users\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance) 2889 try: -> 2890 return self._engine.get_loc(key) 2891 except KeyError: pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: 'date_entry_c' During handling of the above exception, another exception occurred: KeyError Traceback (most recent call last) <ipython-input-35-15374d0f31f5> in <module> 1 #最初の購入がアウトレットの客を抽出 ----> 2 ppl = whole['date_entry_c'][0].query["St_SalesChannel == 'アウトレット店'"] c:\users\lib\site-packages\pandas\core\frame.py in __getitem__(self, key) 2973 if self.columns.nlevels > 1: 2974 return self._getitem_multilevel(key) -> 2975 indexer = self.columns.get_loc(key) 2976 if is_integer(indexer): 2977 indexer = [indexer] c:\users\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance) 2890 return self._engine.get_loc(key) 2891 except KeyError: -> 2892 return self._engine.get_loc(self._maybe_cast_indexer(key)) 2893 indexer = self.get_indexer([key], method=method, tolerance=tolerance) 2894 if indexer.ndim > 1 or indexer.size > 1: pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc() pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.PyObjectHashTable.get_item() KeyError: 'date_entry_c'

該当のソースコード

whole.info() *一部省略
<class 'pandas.core.frame.DataFrame'>
Int64Index: 959005 entries, 0 to 959004
Data columns (total 76 columns):
cst_id 959005 non-null object
date_entry_c_x 959005 non-null object
yymm_entry_x 959005 non-null object
Store_code_x 959005 non-null int64
PostNo_x 959005 non-null object
Addr1_x 959005 non-null object
Main_StoreName_x 959005 non-null object
Main_St_SalesChannel_x 958997 non-null object
Main_St_Region_x 959005 non-null object
Main_St_Hierarchy_x 959005 non-null object
date_entry_dt_x 959005 non-null datetime64[ns]
date_entry_c_y 959005 non-null object
yymm_entry_y 959005 non-null object
Store_code_y 959005 non-null int64
PostNo_y 959005 non-null object
Addr1_y 959005 non-null object
Main_StoreName_y 959005 non-null object
Main_St_SalesChannel_y 958997 non-null object
Main_St_Region_y 959005 non-null object
Main_St_Hierarchy_y 959005 non-null object
date_entry_dt_y 959005 non-null datetime64[ns]
date_purchase_c 959005 non-null datetime64[ns]
yymm_purchase 959005 non-null int64
InsDate 959005 non-null object
Trn_Type 959005 non-null object
rev 959005 non-null int64
num 959005 non-null int64
code 959005 non-null int64
Brand 959005 non-null object
MdName 959005 non-null object
TranKey 959005 non-null int64
TranLineNo 959005 non-null object
Store_code 959005 non-null object
TerminalNo 959005 non-null int64
TranNo 959005 non-null int64
StoreName 959005 non-null object
St_SalesChannel 959005 non-null object
dtypes: datetime64ns, int64(13), object(60)
memory usage: 563.4+ MB

Python

1#最初の購入がアウトレットの客を抽出 2ppl = whole['date_entry_c'][0].query["St_SalesChannel == 'アウトレット店'"]

###試したこと
ppl = whole.groupby('cst_id')['St_SalesChannel'].query("St_SalesChannel == 'アウトレット店'")
これはAttributeError: 'SeriesGroupBy' object has no attribute 'query'

ppl = whole.groupby('cst_id')['St_SalesChannel']
ppl = ppl("St_SalesChannel == 'アウトレット店'")
どうやらGroupbyはどうしても使えないっぽい

質問で分からない部分があれば
編集依頼お願い致します。

何卒宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

自己解決

ppl = whole.drop_duplicates(subset='cst_id')
ppl.query("St_SalesChannel == 'アウトレット店'")
これで近いところまでいけましたが、
精度がより上がるかもしれません。

投稿2019/08/15 03:11

Pablito

総合スコア71

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問