質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.12%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

解決済

pandas データフレーム同士の重複削除について

az_ura
az_ura

総合スコア4

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

1回答

0グッド

0クリップ

156閲覧

投稿2022/11/17 09:02

実現したいこと

データフレーム同士の複数列を比較し、重複していない行のみを抽出したいです。
isinを使用した比較は、1列分の比較しかできないようで困っております。

該当のソースコード

python

1import pandas as pd 2 3df1= pd.DataFrame({ 4 '都道府県': ['東京都', '東京都', '神奈川県', '北海道', '北海道'], 5 '名前': ['kaori', 'kaori', 'takeshi', 'toshi', 'kei'], 6 '年齢': [10, 10, 42, 29, 29] 7}) 8 9df2= pd.DataFrame({ 10 '都道府県': ['東京都', '東京都', '神奈川県', '北海道', '北海道'], 11 '名前': ['saki', 'saki', 'takeshi', 'toshi', 'kei'], 12 '性別': ['女', '女', '男', '男', '女'] 13}) 14

df1を基準に都道府県と名前の列で比較し抽出したい結果↓

python

1 2df= pd.DataFrame({ 3 '都道府県': ['東京都', '東京都'], 4 '名前': ['kaori', 'kaori'], 5 '年齢': [10, 10] 6}) 7

よろしくお願いいたします。

以下のような質問にはグッドを送りましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

グッドが多くついた質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

回答1

0

ベストアンサー

python

1dfx = df1.merge(df2, on=['都道府県', '名前'], how='left', indicator='X')\ 2 .query('X == "left_only"')[df1.columns] 3 4print(dfx) 5 6# 都道府県 名前 年齢 7# 0 東京都 kaori 10 8# 1 東京都 kaori 10

投稿2022/11/17 09:11

編集2022/11/17 09:16
melian

総合スコア16188

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

az_ura

2022/11/18 00:17

mergeですか!ありがとうございます!

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.12%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。