PythonでCaboChaを使い、文節(chunk)を抽出したいです。tokenは抽出することができるのですが、文節(chunk)の抽出の仕方が分かりません。tokenとtokenを合体させて文節(chunk)とすることしかできないのでしょうか?
#!/usr/bin/python # -*- coding: utf-8 -*- import CaboCha c = CaboCha.Parser("") sentence = "太郎はこの本を渡した。" tree = c.parse(sentence) for i in range(tree.chunk_size()): chunk = tree.chunk(i) print 'Chunk:', i for ix in range(chunk.token_pos,chunk.token_pos + chunk.token_size): print tree.token(ix).surface
###実行結果
Chunk: 0
太郎
は
Chunk: 1
この
Chunk: 2
本
を
Chunk: 3
渡し
た
。
回答1件
あなたの回答
tips
プレビュー