pandasの２つのdataframeの要素同士の一部が一致する列の抽出

pandasで元のリスト(cate_list)から1列目のカテゴリ内で３列目が最も大きい行を抽出し,新しいdataframe(cate_after)を作りました。形式はcsvから読み込んだdataframeです。

例cate_list
[列]name_kana, cate,count
[' アップルパーク', 'ブロック・パズル・ゲーム', '1'],
 [' アップルパーク', 'ガラガラ・ラトル', '7'],
 [' アップルパーク', '子供用パジャマ・ルームウェア・スリーパー', '3'],
 [' アップルパーク', 'ファッション雑貨・小物その他', '1'],
 [' アップルパーク', 'おもちゃ・知育玩具その他', '12'],
 [' アップルパーク', 'おもちゃ・知育グッズ', '30'],

これは本来1列(nama_kana)のカテゴリが複数ある中で、3列め(count)中で数が最も多いもののdataframe(cate_after)に変換したものです。

python
1コード
2
3cate_after
4[' アップルパーク', '30'],
5 [' シースリーフィット', '2'],
6 ['100パーセントピュア', '38'],
7 ['10クロスビーデレクラム', '34'],
8 ['1789カーラ', '18'],
9 ['23イヤーズオールド', '7'],
10 ['24カラッツ・サーフ', '386'],
11,,,,,,,

変換コード
od = OrderedDict()
for index,i in cate_list.iterrows():
    od.setdefault(i['name_kana'],[]).append(i['count'])

cate=[]
for key,value in od.items():
    cate.append([key,max(value)])

ここでdataframeのcate_afterに元のdataframeの２列目の'cate'を追加したいのですが、うまく行きません。

つまりcate_afterの１列目と3列目に一致するcate_listの２列目の'cate'を加えたdataframeを作りたいということです。

dataframeに以下のコードでもうまく行きません。

arr=[]
for index, v in cate_list.iterrows():
    for d,c in cate_after.iterrows():
        if v{'name_kana'}==c['name_kana'] and v['count']==c['count']:
             arr.append(v['name_kana'],v['cate'],v['count'])

このようなあるdataframeともう一つのdataframeの要素の一部が共通している列を抜き出す方法を教えてください

行動規範の内容に同意します

回答1件

ベストアンサー

それなら最初から3列のdfにした方が手っ取り早いのでは？　って気が。pandas使うコードは個人的にあまり上手く書けないのですが、だいたいこんな感じで。

sample_data.csv

text
1hoge,h,1
2hoge,o,2
3hoge,g,4
4hoge,e,8
5fuga,fu,16
6fuga,fg,32
7fuga,fa,64
8fuga,ug,128
9fuga,ua,256
10fuga,ga,512
11piyo,piy,1024
12piyo,pio,2048
13piyo,pyo,4096
14piyo,iyo,8192

python
1import pandas as pd
2
3df = pd.read_csv("sample_data.csv", header=None)
4print("initial df")
5print(df)
6
7first_index = set(df[0])
8
9slist = []
10for first in first_index:
11    group = df[df[0] == first]
12    slist.append(group.loc[group[2].idxmax()])
13
14result_df = pd.DataFrame(slist).reset_index(drop=True)
15
16print("\nresult df")
17print(result_df)
18"""出力
19initial df
20       0    1     2
210   hoge    h     1
221   hoge    o     2
232   hoge    g     4
243   hoge    e     8
254   fuga   fu    16
265   fuga   fg    32
276   fuga   fa    64
287   fuga   ug   128
298   fuga   ua   256
309   fuga   ga   512
3110  piyo  piy  1024
3211  piyo  pio  2048
3312  piyo  pyo  4096
3413  piyo  iyo  8192
35
36result df
37      0    1     2
380  fuga   ga   512
391  hoge    e     8
402  piyo  iyo  8192
41"""