質問編集履歴

1

現状のソースコードと実行結果を追加しました。

2017/09/14 12:29

投稿

narinko
narinko

スコア31

test CHANGED
File without changes
test CHANGED
@@ -1 +1,65 @@
1
1
  PythonでCaboChaを使い、文節(chunk)を抽出したいです。tokenは抽出することができるのですが、文節(chunk)の抽出の仕方が分かりません。tokenとtokenを合体させて文節(chunk)とすることしかできないのでしょうか?
2
+
3
+
4
+
5
+ ```
6
+
7
+ #!/usr/bin/python
8
+
9
+ # -*- coding: utf-8 -*-
10
+
11
+ import CaboCha
12
+
13
+
14
+
15
+ c = CaboCha.Parser("")
16
+
17
+
18
+
19
+ sentence = "太郎はこの本を渡した。"
20
+
21
+
22
+
23
+ tree = c.parse(sentence)
24
+
25
+
26
+
27
+ for i in range(tree.chunk_size()):
28
+
29
+ chunk = tree.chunk(i)
30
+
31
+ print 'Chunk:', i
32
+
33
+ for ix in range(chunk.token_pos,chunk.token_pos + chunk.token_size):
34
+
35
+ print tree.token(ix).surface
36
+
37
+ ```
38
+
39
+
40
+
41
+ ###実行結果
42
+
43
+ Chunk: 0
44
+
45
+ 太郎
46
+
47
+
48
+
49
+ Chunk: 1
50
+
51
+ この
52
+
53
+ Chunk: 2
54
+
55
+
56
+
57
+
58
+
59
+ Chunk: 3
60
+
61
+ 渡し
62
+
63
+
64
+
65
+