teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

1

現状のソースコードと実行結果を追加しました。

2017/09/14 12:29

投稿

narinko
narinko

スコア31

title CHANGED
File without changes
body CHANGED
@@ -1,1 +1,33 @@
1
- PythonでCaboChaを使い、文節(chunk)を抽出したいです。tokenは抽出することができるのですが、文節(chunk)の抽出の仕方が分かりません。tokenとtokenを合体させて文節(chunk)とすることしかできないのでしょうか?
1
+ PythonでCaboChaを使い、文節(chunk)を抽出したいです。tokenは抽出することができるのですが、文節(chunk)の抽出の仕方が分かりません。tokenとtokenを合体させて文節(chunk)とすることしかできないのでしょうか?
2
+
3
+ ```
4
+ #!/usr/bin/python
5
+ # -*- coding: utf-8 -*-
6
+ import CaboCha
7
+
8
+ c = CaboCha.Parser("")
9
+
10
+ sentence = "太郎はこの本を渡した。"
11
+
12
+ tree = c.parse(sentence)
13
+
14
+ for i in range(tree.chunk_size()):
15
+ chunk = tree.chunk(i)
16
+ print 'Chunk:', i
17
+ for ix in range(chunk.token_pos,chunk.token_pos + chunk.token_size):
18
+ print tree.token(ix).surface
19
+ ```
20
+
21
+ ###実行結果
22
+ Chunk: 0
23
+ 太郎
24
+
25
+ Chunk: 1
26
+ この
27
+ Chunk: 2
28
+
29
+
30
+ Chunk: 3
31
+ 渡し
32
+
33
+