質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.34%
Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

Q&A

解決済

1回答

9495閲覧

Pandasで他のdfを参照しながら新しい列を作る方法

sin_250

総合スコア112

Jupyter

Jupyter (旧IPython notebook)は、Notebook形式でドキュメント作成し、プログラムの記述・実行、その実行結果を記録するツールです。メモの作成や保存、共有、確認などもブラウザ上で行うことができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

0グッド

1クリップ

投稿2019/10/20 15:03

編集2019/10/20 15:40

以下のような2つのデータフレームが与えられたとします。

items

item_iditem_category_id
151
211
342

transactions

|id|item_id|item_num|
|-------|----------------|
| 1 | 3 | 10 |
| 2 | 2 | 9 |
| 3 | 2 | 22 |

ここで transactions に item_category_id の列を新設したいです。
つまりitem_idの列に対応するitem_category_idを調べながら、列に追加していきたいです。

|id|item_id|item_num| item_category_id |
|-------|----------------|-------------|
| 1 | 3 | 10 | 42 |
| 2 | 2 | 9 | 11 |
| 3 | 2 | 22 | 11|

これを実現する最もスマートな方法は何でしょうか?

以下は私が試したコードですが、異様に計算時間がかかる上、エラーが出ました。

**追記***
エラーが起こったのは、DataFrameのindexが異なっているからだったようです。
一度右辺をリストにした後、pd.Seriesにし、さらにpd.concatでDataFrameを結合することで一応、目的は達成しました。

しかしながら、結構時間がかかるので、より良い方法があるのではないかと考えております。
またint()などとしているあたりも鈍重に感じます。

python

1transactions['item_category_id'] = 2 [ int(items[items['item_id']==ID]['item_category_id']) for ID in transactions['item_id'].tolist() ]

よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

pandas.DataFrame.mergeが使えると思います。

Python

1import pandas as pd 2 3items = pd.DataFrame([[1, 51], [2, 11], [3,42]], columns = ['item_id', 'item_category_id']) 4transcations = pd.DataFrame([[1, 3, 10],[2, 2, 9],[3, 2, 22]], columns = ['id', 'item_id', 'item_num']) 5 6print(items) 7""" 8 item_id item_category_id 90 1 51 101 2 11 112 3 42 12""" 13print(transcations) 14""" 15 id item_id item_num 160 1 3 10 171 2 2 9 182 3 2 22 19""" 20 21transcations = pd.merge(transcations, items, how='left', on ='item_id') 22print(transcations) 23""" 24 id item_id item_num item_category_id 250 1 3 10 42 261 2 2 9 11 272 3 2 22 11 28"""

参考記事:[Python] pandas データ結合

投稿2019/10/20 16:07

nomuken

総合スコア1627

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sin_250

2019/10/20 16:30

ドンピシャ回答でございます!ありがとうございます。すっきりしました。勉強になりました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.34%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問