質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

3回答

391閲覧

Pandasのデータフレーム結合で特定の値だけにしたい。

tasojiro

総合スコア16

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2022/06/05 09:18

前提

pandasの初心者です。
今回、質問するにあたって使用するデータフレームは以下です。

Python

1import pandas as pd 2 3df1 = pd.DataFrame( 4 data={'user_id': [1,2,3,3,4,4], 5 'contents_id': [11,12,11,13,14,15], 6 'rating': [3,3,4,4,3,4]} 7) 8df2 = pd.DataFrame( 9 data={'user_id': [5,5,5], 10 'contents_id': [11,12,13], 11 } 12) 13df2['rating'] = ""

実現したいこと

前提で示したデータフレームを使って、df1とdf2を結合したいと考えております。
結合する際に、「df2の”contents_id”のみを残して、df1にdf2のuser_idを追加」を条件として結合したいです。
結果としては、以下のように出力されることを想定しています。

user_idcontents_idrating
1113
3114
511
2123
512
3134
513

<達成したい項目>
・contents_idが、df2のものしか存在しない。
・user_idに、df2の「5」が追加されている。

該当のソースコード

Python

1cols = ['user_id', 'contents_id', 'rating'] 2new_df = pd.DataFrame(index=[], columns=cols) 3 4for i in df2['contents_id']: 5 for j in df1['contents_id']: 6 if i == j: 7 e1 = df1[df1['contents_id'] == j] 8 e2 = df2[df2['contents_id'] == i] 9 new_df = new_df.append(e1) 10 new_df = new_df.append(e2)

試したこと

該当のソースコードのように、無理やりforで回して一致したら新たなデータフレームに追加という荒業を行いました。

が、テストデータでなく本データですると凄く時間がかかってしまったりするので、結合方法でなにか賢い方法がないかと質問させていただきました。

よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答3

0

python

1dfx = pd.concat([df1, df2]).query('contents_id in @df2["contents_id"]').sort_values('contents_id') 2print(dfx.to_markdown(index=False))
user_idcontents_idrating
1113
3114
511
2123
512
3134
513

投稿2022/06/05 11:17

編集2022/06/05 12:19
melian

総合スコア19749

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tasojiro

2022/06/05 13:33

目的の結果を出力することが出来ました。 ありがとうございます!
guest

0

同じく速いかどうかわかりませんが参考まで

Python

1import pandas as pd 2 3df1 = pd.DataFrame( 4 data={'user_id': [1,2,3,3,4,4], 5 'contents_id': [11,12,11,13,14,15], 6 'rating': [3,3,4,4,3,4]} 7) 8df2 = pd.DataFrame( 9 data={'user_id': [5,5,5], 10 'contents_id': [11,12,13], 11 } 12) 13df2['rating'] = "" 14df3 = pd.concat([df1[df1['contents_id'].isin(df2['contents_id'])], df2]).sort_values('contents_id').reset_index(drop=True) 15print(df3)

投稿2022/06/05 11:03

lehshell

総合スコア1147

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tasojiro

2022/06/05 13:33

目的の結果を出力することが出来ました。 ありがとうございます!
guest

0

ベストアンサー

速いかどうかは分かりません。

Python

1df = pd.concat([df1, df2]).sort_values("contents_id") 2df[df["contents_id"].isin([contents_id for contents_id in df1["contents_id"].values if contents_id in df2["contents_id"].values])] 3# user_id contents_id rating 4#0 1 11 3 5#2 3 11 4 6#0 5 11 7#1 2 12 3 8#1 5 12 9#3 3 13 4 10#2 5 13

投稿2022/06/05 10:39

編集2022/06/05 11:09
meg_

総合スコア10580

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

tasojiro

2022/06/05 13:34

目的の結果を出力することが出来ました。 ありがとうございます! どの投稿も同じ結果が得られましたが、投稿が一番早かったのでBAとさせていただきます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問