Python 複数のデータファイルの参照

Jupiter notebookでPythonを用いて簡単なデータ分析の課題をしています。
pythonの学習経験は全くないです。

すでに読み込み済みのファイル：reserve_tbとhotel_tbがあります。

reserve_tbでは各ホテルに対して、各顧客が払った宿泊代がまとめてあります。

hotel_id	total_price
h_1	29500
h_2	10000
h_3	8000
・・・	・・・
h_300	25000

hotel_tbでは各ホテルに対して、big_area_nameでABCの3つに振り分けられています。

hotel_id	big_area_name
h_1	B
h_2	A
h_3	B
・・・	・・・
h_300	C

#複数のデータファイルの参照
ここで、big_area_nameがBのホテルのtotal_priceを表示した表を出力したいのですが、方法がわかりません。目標とする表を以下に示します。

big_data_name	hotel_id	total_price
B	h_1	29500
・・・

python
1hotel_tb.query('big_area_name =="D" ')

このコードを実行し、hotel_tbからbig_area_nameがBの行を抜き出すところまではできましたが、big_data_nameがBのホテルのtotal_priceを表示する方法がわかりません。長くなりましたが、よろしくお願いいたします。

meg_

2020/05/15 04:29

hotel_tbとはpandas.DataFrameですか？その辺りの説明からされた方が良いかと思います。

退会済みユーザー

2020/05/15 04:33

すみません。書き忘れていました。pandas.DataFrameです。それぞれcsvファイルから読み込んだものです。

行動規範の内容に同意します

回答1件

ベストアンサー

最初に2つのDataFrameを結合してしまうのが簡単かと思います。

2つのDataFrameの結合は DataFrame.merge() を使用して

Python
1merged_tb = reserve_tb.merge(hotel_tb, on='hotel_id', how='inner')

となります。
（how='inner'パラメータは『両方のDataFrameに揃っていないhotel_id - どちらか片側にしかないhotel_idは結合されない(消去される)』という意味になりますので、この辺はお好みで。）

あとは、通常通り

Python
1merged_tb[merged_tb['big_area_name'] == 'B']

または質問にあるように

Python
1merged_tb.query('big_area_name == "B"')

のようにフィルタリングすると望んでいる結果が得られるのではないでしょうか。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html

以下は動作サンプルです

Python
1import numpy as np
2import pandas as pd
3
4N = 10
5hotel_id = [f'h_{i+1}' for i in range(N)]
6reserve_tb = pd.DataFrame({
7    'hotel_id': hotel_id,
8    'total_price': np.random.randint(1, 100, N) * 1000,
9})
10hotel_tb = pd.DataFrame({
11    'hotel_id': hotel_id,
12    'big_area_name': np.random.choice(['A','B','C'], N)
13})    
14
15print(reserve_tb)
16print(hotel_tb)
17
18merged_tb = reserve_tb.merge(hotel_tb, on='hotel_id', how='inner')
19print(merged_tb[merged_tb['big_area_name'] == 'B'])
20#  hotel_id  total_price big_area_name
21#0      h_1        18000             B
22#1      h_2        29000             B
23#2      h_3        63000             B
24#3      h_4        64000             B
25#8      h_9        95000             B