###「TreeTagger」の使い方について
英文の形態素解析ツール「TreeTagger」を使って、英文を品詞に分解しています。
windows環境とlinux環境と両方にインストールしているのですが、どうやら返ってくる品詞コードが違うようで、原因がわからずにいます。
(以下の実行例では、
"I have seen you before." という英文を入力していますが、
"have" "seen" の品詞コードに差異があります。)
以下の品詞コードを確認すると、
"have" はVHPが、"seen"はVVN が返ってくるのが正しいようです。
つまり、Windows環境は正しく返ってくるのですが、Linux環境ではbe動詞も普通の動詞も
ごちゃまぜになって返ってきてしまいます。
これは、OSによる仕様なのでしょうか?
それとも、なにかファイルが足りていない、ということなのでしょうか。
品詞コード一覧
https://courses.washington.edu/hypertxt/csar-v02/penntable.html
###Windows環境 (Windows 8.1 64bit)
C:\TreeTagger\bin>tag-english sample_2.txt reading parameters ... tagging ... I PP I have VHP have seen VVN see you PP you before IN before . SENT . finished.
###Linux環境 (CentOS Linux release 7.3.1611 (Core))
[localhost treetagger]$ sudo echo "I have seen you before." | cmd/tree-tagger-english reading parameters ... tagging ... finished. I PP I have VBP have seen VBN see you PP you before IN before . SENT .
###インストールしたファイル
インストールしたファイルは、Windows・Linuxそれぞれ以下の通りです。
どちらも今月の4/20ごろにダウンロードしたもので、最新のバージョンと思われます。
バージョンは、どちらも3.2系のようですが、Linuxの3.2.1が原因なのでしょうか。
もしそうであれば、違うバージョンのものは現在入手できるのでしょうか?
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ (ツリータガー公式サイト)
- Windows
・tree-tagger-windows-3.2.zip ... ツリータガー本体
・english-par-linux-3.2-utf8.bin.gz ... 英語パラメータファイル
・english-chunker-par-linux-3.2-utf8.bin.gz ... (パラメータファイル?)
- Linux
・tree-tagger-linux-3.2.1.tar.gz ... ツリータガー本体
・english-par-linux-3.2-utf8.bin.gz ... 英語パラメータファイル
・tagger-scripts.tar.gz ... タグ付けスクリプト
・install-tagger.sh ... インストール用のスクリプト
###インストールディレクトリ
windows ディレクトリ構成
├─bin │ └─chunk-english.bat │ └─chunk-french.bat │ └─chunk-german.bat │ └─sample.txt │ └─sample_2.txt │ └─tag-dutch.bat │ └─tag-english.bat │ └─tag-french.bat │ └─tag-german.bat │ └─tag-italian.bat │ └─tag-spanish.bat │ └─train-tree-tagger.exe │ └─tree-tagger-flush.exe │ └─tree-tagger.exe ├─cmd │ └─filter-chunker-output-french.perl │ └─filter-chunker-output-german.perl │ └─filter-chunker-output.perl │ └─mwl-lookup-greek.perl │ └─mwl-lookup.perl │ └─tokenize.pl │ └─utf8-tokenize.perl └─lib │ └─dutch-abbreviations │ └─english-abbreviations │ └─english-chunker.par │ └─english-utf8.par │ └─french-abbreviations │ └─german-abbreviations │ └─italian-abbreviations │ └─spanish-abbreviations │ └─spanish-mwls ├─INSTALL.txt └─README.txt
linux ディレクトリ構成
├─ COPYRIGHT ├─ FILES ├─ README ├─ README.script ├─ bin │ ├─ chunk-english │ ├─ separate-punctuation │ ├─ tag-english │ ├─ train-tree-tagger │ ├─ tree-tagger │ └─ tree-tagger-flush ├─ cmd │ ├─ chunker-read-lemma.perl │ ├─ chunker-write-lemma.perl │ ├─ filter-chunker-output-french.perl │ ├─ filter-chunker-output-german.perl │ ├─ filter-chunker-output.perl │ ├─ filter-coordinate-output.perl │ ├─ filter-german-tags │ ├─ lookup.perl │ ├─ mwl-lookup.perl │ ├─ portuguese-post-tagging │ ├─ portuguese-splitter.perl │ ├─ split-romanian.perl │ ├─ tagger-chunker-english │ ├─ tagger-chunker-french │ ├─ tagger-chunker-german │ ├─ tagger-chunker-spanish │ ├─ tokenize.pl │ ├─ tree-tagger-bulgarian │ ├─ tree-tagger-catalan │ ├─ tree-tagger-czech │ ├─ tree-tagger-dutch │ ├─ tree-tagger-english │ ├─ tree-tagger-estonian │ ├─ tree-tagger-finnish │ ├─ tree-tagger-french │ ├─ tree-tagger-galician │ ├─ tree-tagger-german │ ├─ tree-tagger-italian │ ├─ tree-tagger-latin │ ├─ tree-tagger-middle-high-german │ ├─ tree-tagger-polish │ ├─ tree-tagger-portuguese │ ├─ tree-tagger-portuguese-finegrained │ ├─ tree-tagger-romanian │ ├─ tree-tagger-russian │ ├─ tree-tagger-slovak │ ├─ tree-tagger-slovenian │ ├─ tree-tagger-spanish │ ├─ tree-tagger-spanish-ancora │ ├─ tree-tagger-swahili │ └─ utf8-tokenize.perl ├─ doc │ ├─ nemlap94.ps │ └─ sigdat95.ps ├─ english-chunker-par-linux-3.2-utf8.bin ├─ english-par-linux-3.2-utf8.bin.gz ├─ install-tagger.sh ├─ lib │ ├─ bulgarian-abbreviations │ ├─ bulgarian-mwls │ ├─ catalan-abbreviations │ ├─ czech-abbreviations-utf8 │ ├─ dutch-abbreviations │ ├─ english-abbreviations │ ├─ english-chunker │ ├─ english-utf8.par │ ├─ estonian-abbreviations-utf8 │ ├─ estonian-mwls-utf8 │ ├─ finnish-abbreviations-utf8 │ ├─ french-abbreviations │ ├─ french-abbreviations-utf8 │ ├─ galician-abbreviations-utf8 │ ├─ galician-mwls │ ├─ german-abbreviations │ ├─ german-abbreviations-utf8 │ ├─ german-lexicon-utf8.txt │ ├─ german-lexicon.txt │ ├─ italian-abbreviations │ ├─ latin-abbreviations │ ├─ latin-mwls │ ├─ middle-high-german-abbreviations-utf8 │ ├─ polish-abbreviations-utf8 │ ├─ portuguese-abbreviations-utf8 │ ├─ romanian-abbreviations │ ├─ romanian-tokens │ ├─ spanish-abbreviations │ ├─ spanish-mwls │ ├─ spanish-mwls-utf8 │ └─ swahili-abbreviations ├─ tagger-scripts.tar.gz └─ tree-tagger-linux-3.2.1.tar.gz
###参考
以下サイトを参考にインストールしました。
http://funoisan.blog.fc2.com/blog-entry-4.html
http://otani0083.hatenablog.com/entry/2013/10/01/195037
当方、プログラミング初心者のため
なるべくわかりやすく説明いただけると、大変助かります。
TreeTaggerを利用したことのある方いらっしゃいましたら、
ご教示いただけると幸いです。
どうぞよろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー