おおもとのデータから特定のIDを抽出したいです！！！

前提・実現したいこと

購買と顧客データを使ってJupyter Notebook上でデータ加工をしています。
現在は、特定したターゲットIDを使って、
おおもとのデータから、ターゲット外のIDを削除したいと考えています。
しかし、明らかに構文が悪いと思うのですが、
以下のエラーが発生しました。

発生している問題・エラーメッセージ

ValueError                                Traceback (most recent call last)
<ipython-input-58-d216038b1202> in <module>
      1 #分析対象の購買データを抽出
      2 #まずは対象のIDを抽出
----> 3 whole[whole['cst_id'] == ppl['cst_id']]

c:\users\lib\site-packages\pandas\core\ops\__init__.py in wrapper(self, other, axis)
   1140 
   1141         elif isinstance(other, ABCSeries) and not self._indexed_same(other):
-> 1142             raise ValueError("Can only compare identically-labeled " "Series objects")
   1143 
   1144         elif is_categorical_dtype(self):

ValueError: Can only compare identically-labeled Series objects

該当のソースコード

Python
1whole[whole['cst_id'] == ppl['cst_id']]

wholeがおおもとのデータで、pplがターゲットIDを絞ったデータセットです。
wholeの中のcst_idの中で、pplの中のcst_idと一致するものだけを抽出するイメージです。

###試したこと
meg_さんのご指導に基づき、
whole[whole['cst_id'].map(lambda x: x in ppl['cst_id'].tolist())]
で試してみたのですが、実行に時間がかかりすぎてしまい
うまく解決しません。
他のコードを書いたら実行できるので、
書き方の問題だと思うのですが、
他に案がある方はいらっしゃいますでしょうか？

何卒ご教示のほど、
宜しくお願い致します。

行動規範の内容に同意します

回答3件

whole['cst_id'] とppl['cst_id']のデータ数（行数）が異なるのでしょう。

下記のようなコードで実現できそうです。

Python
1df1[df1['A'].map(lambda x: x in df2['C'].tolist())]

投稿2019/08/15 03:55

編集2019/08/15 04:07

meg_

総合スコア10579

Pablito

2019/08/15 05:02

meg_さんご回答ありがとうございます。上記のコードを実行してみたのですが、このコードだけ処理に相当な時間がかかってしまい、作業が先に進まなくなってしまいました。これは環境が原因なのか、コードが元データと合っていないのか分かりかねるのですが、どう思われますか？？？

meg_

2019/08/15 05:11

wholeのデータは何件（何行）ありますか？上記コードですと毎回「df2['C'].tolist())」の部分を実行するので件数多いと特に効率悪いですね。先にこの部分をリストにしておいたら多少早くなりませんか？あるいは、やり方を変えて各IDと一致するデータをwholeから抽出して結合する方が早いかもしれません。

Pablito

2019/08/15 05:16

wholeは959004行あります。自分には後者のやり方の方が分かりやすそうなので、後者のやり方に挑戦してみます。

行動規範の内容に同意します