カッコで構造化された文構造を木構造のデータにしたい。(Python3系)

###前提・実現したいこと
以下のようなカッコで構造化されているものを木のデータ構造に変換したいです。(StanfordCoreNLPで作ったものです。）

My dog also likes eating sausage.

上の文に対して以下のような出力がなされます。

(ROOT (S (NP (PRP$ My) (NN dog)) (ADVP (RB also)) (VP (VBZ likes) (NP (JJ eating) (NN sausage))) (. .)))

上の構造はROOTから始まって(の中にあるものは一つ下のノードになります。
)があるとノードがひとつ上がります。

これを木構造のデータに変換して、前置詞が動詞句に含まれているかどうかなどの情報を取得したいと思っています

宜しくお願いします。

ikedas

2016/12/12 05:12

ご質問の構造を出力させるために書いたPythonのソースコードも提示して下さい。

行動規範の内容に同意します

回答1件

入力元データはたとえば以下で作成されたものでしょうか？
Stanford Parser

簡易的に（強引に）XMLに変換して走査する例です。

python
1from xml.etree import ElementTree
2def makeTree(e):
3    tr = []
4    for c in e.findall('node'):
5        dic = {}
6        dic[c.text] = makeTree(c)
7        tr.append(dic)
8    return tr
9
10def test():
11    src = '(ROOT (S (NP (PRP$ My) (NN dog)) (ADVP (RB also)) (VP (VBZ likes) (NP (JJ eating) (NN sausage))) (. .)))'
12    xml = src.replace('(', '<node>').replace(')', '</node>')
13    print( xml)
14    root = ElementTree.fromstring(xml)
15    tr = makeTree(root)
16    print( tr)