編集履歴

質問編集履歴

リンク追記

2017/05/02 22:35

投稿

lazuline8

スコア48

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,7 +1,7 @@
 **FP-Growth**というアルゴリズムを利用してアソシエーションルール分析を行い、その途中で生成される**FP-Tree**を図示してくれるプログラムを書こうとしています。
 FP-Growthのアルゴリズムについては下記の動画が詳しいです。
-https://www.youtube.com/watch?v=vPcJEFFWN_k
+[youtube](https://www.youtube.com/watch?v=vPcJEFFWN_k)
 上記の動画と同じように
 「入力されたリストと途中まで同じ構造の枝がすでにあるかどうかを調べて、有った場合は共通部分のカウントを増やしつつ新規部分を枝分かれさせて追加し、なかった場合はrootである[NULL]から新しく枝を生やす」

7 317

想定出力をスクリーンショット画像で追加

2017/05/02 22:35

投稿

lazuline8

スコア48

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -69,21 +69,6 @@
 dot.edge("<親ノード名>","<子ノード名>")
 ```
 という操作ができるため、これを利用しようと思っています。
-期待する出力は下記の通りです(dot記法)
+期待する出力は下記の通りです。
-```dot
-digraph {
-	b [label="b:2"]
-	d [label="d:1"]
+![出力例](08188179eaad753c971303588636f694.png)
-	e [label="c:1"]
-	c [label="c:1"]
-	a [label="a:2"]
-	n [label=NULL]
-		n -> a
-		a -> b
-		b -> c
-		b -> d
-		n -> e
-}
-```
 解決法をご存知でしたらご教示ください。

7 317

具体的な入出力と作成中のコードを追加しました

2017/05/02 22:34

投稿

lazuline8

スコア48

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,3 +1,89 @@
-**FP-Growth**というアルゴリズムを利用して、アソシエーションルール分析を行おうとしています。
+**FP-Growth**というアルゴリズムを利用してアソシエーションルール分析を行い、その途中で生成される**FP-Tree**を図示してくれるプログラムを書こうとしています。
+FP-Growthのアルゴリズムについては下記の動画が詳しいです。
+https://www.youtube.com/watch?v=vPcJEFFWN_k
+上記の動画と同じように
+「入力されたリストと途中まで同じ構造の枝がすでにあるかどうかを調べて、有った場合は共通部分のカウントを増やしつつ新規部分を枝分かれさせて追加し、なかった場合はrootである[NULL]から新しく枝を生やす」
+という作業を繰り返してグラフ化したいのですが、これを実現する方法がわかりません。
+```python
+from collections import defaultdict, Iterator
+import graphviz
+dot = graphviz.Digraph()
+X=[["b","c","a"],
+  ["b","a","d"],
+  ["c"]]
+#全く同じ組み合わせのトランザクションを数え、[count,transaction]の二項をもつdbを作る(countで降順ソート)
+    db = ((X.count(transaction), transaction) for transaction in X)
+#トランザクション内の要素ごとに出現数を数え、[item:count]の辞書を作る
+    item_support = defaultdict(int)
+    node_support = defaultdict(int)
+    for count, transaction in db:
+        for item in transaction:
+            item_support[item] += count
+            node_support[item] += 1
+#辞書から出現数がしきい値以下の要素を切り捨てる
+    frequent_items = {item
+                      for item, support in item_support.items()
+                      if support >= min_support}
+#要素数でtransactionを降順ソートするため、辞書型の(sort_index)を作る
+    sort_index = {item: i
+                  for i, item in
+                      enumerate(sorted(frequent_items,
+                                       key=item_support.__getitem__,
+                                       reverse=True))}.__getitem__
+#dbのtransaction内部をsort_indexでソートする
+db = [(count, sorted(frequent_items.intersection(transaction),
+                         key=sort_index)) for count, transaction in db]
+```
-トランザクションをリスト化して**Orange3-associate**というパッケージ内の関数に食わせる事で頻出パターンの抽出は完了したのですが、この結果（計算過程で構築したツリー）をツリー図（FP-Growthの概念を説明する時に出てくるような、ノード間を線で引いて出現度数を書き加えた樹形図）として出力したく思っています。
+上記のようにグラフ描画用のdbを前処理で作るところまではできたのですが、この後でツリーを走査して枝を分岐させるか新しく生やすかを判断してグラフ描画関数に渡す部分で行き詰っています。
+この時点でfrequent_itemsには
+|item|support|
+|:--|--:|
+|a|2|
+|b|2|
+|c|2|
+|d|1|
+dbには
+|count|transaction|
+|:--|--:|
+|1|["a","b","c"]|
+|1| ["a","b","d"]|
+|1|["c"]|
+という内容が入っている想定です。
+図の出力にはGraphvizを使おうと思っており、graphvizでは
+ノードの追加
+```python
+dot.node("<ノード名>")
+```
+ノードの親子関係設定
+```python
+dot.edge("<親ノード名>","<子ノード名>")
+```
+という操作ができるため、これを利用しようと思っています。
+期待する出力は下記の通りです(dot記法)
+```dot
+digraph {
+	b [label="b:2"]
+	d [label="d:1"]
+	e [label="c:1"]
+	c [label="c:1"]
+	a [label="a:2"]
+	n [label=NULL]
+		n -> a
+		a -> b
+		b -> c
+		b -> d
+		n -> e
+}
+```
-このようなことができるパッケージや手法をご存知であれば、ご教示ください。
+解決法をご存知でしたらご教示ください。

7 317