辞書の配列の辞書型の要素の重複を取り除きたい

辞書の配列の辞書型の要素の重複を取り除きたい。

{'A':[{'a1':10,'a2':20},{'a1':10,'a2':20},{'a1':30,'a2':25}],'B':[{'a1':40,'a2':50},{'a1':30,'a2':25},{'a1':30,'a2':25},{'a1':30,'a2':25},{'a1':22,'a2':27},{'a1':22,'a2':27}],'C':[{'a1':10,'a2':20}]}

という辞書dfがある。

この辞書の配列の辞書型の要素の重複を取り除きたい。
例えば、{‘a1’:10,‘a2’:20},{‘a1’:10,‘a2’:20}は重複しているため１つにする、
{‘a1’:30,‘a2’:25},{‘a1’:30,‘a2’:25},{‘a1’:30,‘a2’:25}も重複しているため１つにするなど。
理想のアウトプットは、

{‘A’:[{‘a1’:10,‘a2’:20},{‘a1’:30,‘a2’:25}],’B’:[{‘a1’:40,‘a2’:50},{‘a1’:30,‘a2’:25},{‘a1’:22,‘a2’:27}],’C’:[{‘a1’:10,‘a2’:20}]}

のような形にすることである。

x=set(df)
print(x)

とコードを書くと、
[‘A’,’B’,’C’] のようにキーだけの重複が取り除かれた。

要素は配列であるため、setメソッドでset(list)のようにして１行で書けるのか？
どのように書けば理想のアウトプットの辞書を出力できるか？

hayataka2049

2018/05/16 10:23

外側の辞書のAキーに属する辞書とCキーに属する辞書が重複する、といった場合は無視して構いませんか？

k0908

2018/05/16 10:24

はい、それは無視して大丈夫です

行動規範の内容に同意します

回答2件

ベストアンサー

効率を考えると微妙なアルゴリズムですが、とりあえず用は達します。

python
1from pprint import pprint
2
3dct = {'A':[{'a1':10,'a2':20},{'a1':10,'a2':20},{'a1':30,'a2':25}],
4       'B':[{'a1':40,'a2':50},{'a1':30,'a2':25},{'a1':30,'a2':25},{'a1':30,'a2':25},{'a1':22,'a2':27},{'a1':22,'a2':27}],
5       'C':[{'a1':10,'a2':20}]} 
6
7def remove_duplicate(lst):
8    ret_lst = []
9    for d in lst:
10        if d not in ret_lst:
11            ret_lst.append(d)
12    return ret_lst
13
14dct = {k:remove_duplicate(v) for k,v in dct.items()}
15pprint(dct)
16""" => 
17{'A': [{'a1': 10, 'a2': 20}, {'a1': 30, 'a2': 25}],
18 'B': [{'a1': 40, 'a2': 50}, {'a1': 30, 'a2': 25}, {'a1': 22, 'a2': 27}],
19 'C': [{'a1': 10, 'a2': 20}]}
20"""

投稿2018/05/16 11:05

hayataka2049

総合スコア30933

json.dumps()で文字列化(hashable)にしてsetに突っ込み、リスト時にjson.loads()で辞書に戻します。

Python
1d = {'A':[{'a1':10,'a2':20},{'a1':10,'a2':20},{'a1':30,'a2':25}],'B':[{'a1':40,'a2':50},{'a1':30,'a2':25},{'a1':30,'a2':25},{'a1':30,'a2':25},{'a1':22,'a2':27},{'a1':22,'a2':27}],'C':[{'a1':10,'a2':20}]} 
2print(d)
3
4import json
5for k,v in d.items():
6import json
7for k,v in d.items():
8    s = {json.dumps(i,sort_keys=True) for i in v} # set hayataka2049さんの指摘を受けsort_keysを追加
9    d[k] = [json.loads(i) for i in s]
10
11print(d)

投稿2018/05/16 11:20

編集2018/05/16 11:33

can110

総合スコア38267

hayataka2049

2018/05/16 11:24 編集

sort_keys=Trueしておかないと怖い気がします・・・dict.items()でtuple化して・・・とかも考えましたけど、どうやるのが速いんでしょうかこれ

can110

2018/05/16 11:35

あ～盲点でした。たしかに。ご指摘ありがとうございます。 jsonで文字列化は乱暴だし速度も？だけど、楽ちんなので(^^;

hayataka2049

2018/05/16 11:39

確かに「もしネストされたときは再帰的に・・・」とか考え始めると、強引に文字列にしてしまうjsonは良さげです

karamarimo

2018/05/16 14:32

こちらで実行しましたところ、↓のように出力され、list 内で順番が維持されていないです。 {'A': [{'a1': 10, 'a2': 20}, {'a1': 30, 'a2': 25}], 'B': [{'a1': 22, 'a2': 27}, {'a1': 40, 'a2': 50}, {'a1': 30, 'a2': 25}], 'C': [{'a1': 10, 'a2': 20}]} 質問者さんが順番を維持することを要求しているかはわからないですが、維持するには set ではなく OrderedDict を用いればできると思います。

can110

2018/05/17 09:17

> list 内で順番が維持されていないですね～要求レベルによりますが、set→OrderdDictのほうが親切かもですね

行動規範の内容に同意します

あなたの回答