FP-Growthにおけるツリー図のグラフ化

Question

**FP-Growth**というアルゴリズムを利用してアソシエーションルール分析を行い、その途中で生成される**FP-Tree**を図示してくれるプログラムを書こうとしています。 FP-Growthのアルゴリズムについては下記の動画が詳しいです。 [youtube](https://www.youtube.com/watch?v=vPcJEFFWN_k) 上記の動画と同じように「入力されたリストと途中まで同じ構造の枝がすでにあるかどうかを調べて、有った場合は共通部分のカウントを増やしつつ新規部分を枝分かれさせて追加し、なかった場合はrootである[NULL]から新しく枝を生やす」という作業を繰り返してグラフ化したいのですが、これを実現する方法がわかりません。 ```python from collections import defaultdict, Iterator import graphviz dot = graphviz.Digraph() X=[["b","c","a"], ["b","a","d"], ["c"]] #全く同じ組み合わせのトランザクションを数え、[count,transaction]の二項をもつdbを作る(countで降順ソート) db = ((X.count(transaction), transaction) for transaction in X) #トランザクション内の要素ごとに出現数を数え、[item:count]の辞書を作る item_support = defaultdict(int) node_support = defaultdict(int) for count, transaction in db: for item in transaction: item_support[item] += count node_support[item] += 1 #辞書から出現数がしきい値以下の要素を切り捨てる frequent_items = {item for item, support in item_support.items() if support >= min_support} #要素数でtransactionを降順ソートするため、辞書型の(sort_index)を作る sort_index = {item: i for i, item in enumerate(sorted(frequent_items, key=item_support.__getitem__, reverse=True))}.__getitem__ #dbのtransaction内部をsort_indexでソートする db = [(count, sorted(frequent_items.intersection(transaction), key=sort_index)) for count, transaction in db] ``` 上記のようにグラフ描画用のdbを前処理で作るところまではできたのですが、この後でツリーを走査して枝を分岐させるか新しく生やすかを判断してグラフ描画関数に渡す部分で行き詰っています。この時点でfrequent_itemsには |item|support| |:--|--:| |a|2| |b|2| |c|2| |d|1| dbには |count|transaction| |:--|--:| |1|["a","b","c"]| |1| ["a","b","d"]| |1|["c"]| という内容が入っている想定です。図の出力にはGraphvizを使おうと思っており、graphvizではノードの追加 ```python dot.node("<ノード名>") ``` ノードの親子関係設定 ```python dot.edge("<親ノード名>","<子ノード名>") ``` という操作ができるため、これを利用しようと思っています。期待する出力は下記の通りです。 ![出力例](08188179eaad753c971303588636f694.png) 解決法をご存知でしたらご教示ください。

Answer

`FP-Tree`の構築は、以下に紹介されているコードをほぼそのまま利用することでできると思います。
[Coding FP-growth algorithm in Python 3](http://adataanalyst.com/machine-learning/fp-growth-algorithm-python-3/)
描画についても、構築された`FP-Tree`のルートから深さ優先で再帰走査しノード、エッジをdotに追加することでできると思います。

Answer

Graphviz は、 **すでにあるグラフ構造のデータを描画するための API** であって、任意のグラフ構造のデータを構築するための API ではないと思います。それを、きちんと FP-Tree のデータを構築することなく直接使おうとしているために混乱なさっているのではないでしょうか。

まずは、単純なネストした `dict` 等のデータ構造で FP-Tree を構築し、そのあとに構築した FP-Tree を Graphviz で描く…というような手順で実装してみては如何でしょう。

count	transaction
1	["a","b","c"]
1	["a","b","d"]
1	["c"]

関連した質問