「TreeTagger」の使い方について
英文の形態素解析ツール「TreeTagger」を使って、英文を品詞に分解しています。
windows環境とlinux環境と両方にインストールしているのですが、どうやら返ってくる品詞コードが違うようで、原因がわからずにいます。
(以下の実行例では、
"I have seen you before." という英文を入力していますが、
"have" "seen" の品詞コードに差異があります。)
以下の品詞コードを確認すると、
"have" はVHPが、"seen"はVVN が返ってくるのが正しいようです。
つまり、Windows環境は正しく返ってくるのですが、Linux環境ではbe動詞も普通の動詞も
ごちゃまぜになって返ってきてしまいます。
これは、OSによる仕様なのでしょうか?
それとも、なにかファイルが足りていない、ということなのでしょうか。
品詞コード一覧
https://courses.washington.edu/hypertxt/csar-v02/penntable.html
Windows環境 (Windows 8.1 64bit)
C:\TreeTagger\bin>tag-english sample_2.txt
reading parameters ...
tagging ...
I PP I
have VHP have
seen VVN see
you PP you
before IN before
. SENT .
finished.
Linux環境 (CentOS Linux release 7.3.1611 (Core))
[localhost treetagger]$ sudo echo "I have seen you before." | cmd/tree-tagger-english
reading parameters ...
tagging ...
finished.
I PP I
have VBP have
seen VBN see
you PP you
before IN before
. SENT .
インストールしたファイル
インストールしたファイルは、Windows・Linuxそれぞれ以下の通りです。
どちらも今月の4/20ごろにダウンロードしたもので、最新のバージョンと思われます。
バージョンは、どちらも3.2系のようですが、Linuxの3.2.1が原因なのでしょうか。
もしそうであれば、違うバージョンのものは現在入手できるのでしょうか?
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ (ツリータガー公式サイト)
- Windows
・tree-tagger-windows-3.2.zip ... ツリータガー本体
・english-par-linux-3.2-utf8.bin.gz ... 英語パラメータファイル
・english-chunker-par-linux-3.2-utf8.bin.gz ... (パラメータファイル?) - Linux
・tree-tagger-linux-3.2.1.tar.gz ... ツリータガー本体
・english-par-linux-3.2-utf8.bin.gz ... 英語パラメータファイル
・tagger-scripts.tar.gz ... タグ付けスクリプト
・install-tagger.sh ... インストール用のスクリプト
インストールディレクトリ
windows ディレクトリ構成
├─bin
│ └─chunk-english.bat
│ └─chunk-french.bat
│ └─chunk-german.bat
│ └─sample.txt
│ └─sample_2.txt
│ └─tag-dutch.bat
│ └─tag-english.bat
│ └─tag-french.bat
│ └─tag-german.bat
│ └─tag-italian.bat
│ └─tag-spanish.bat
│ └─train-tree-tagger.exe
│ └─tree-tagger-flush.exe
│ └─tree-tagger.exe
├─cmd
│ └─filter-chunker-output-french.perl
│ └─filter-chunker-output-german.perl
│ └─filter-chunker-output.perl
│ └─mwl-lookup-greek.perl
│ └─mwl-lookup.perl
│ └─tokenize.pl
│ └─utf8-tokenize.perl
└─lib
│ └─dutch-abbreviations
│ └─english-abbreviations
│ └─english-chunker.par
│ └─english-utf8.par
│ └─french-abbreviations
│ └─german-abbreviations
│ └─italian-abbreviations
│ └─spanish-abbreviations
│ └─spanish-mwls
├─INSTALL.txt
└─README.txt
linux ディレクトリ構成
├─ COPYRIGHT
├─ FILES
├─ README
├─ README.script
├─ bin
│ ├─ chunk-english
│ ├─ separate-punctuation
│ ├─ tag-english
│ ├─ train-tree-tagger
│ ├─ tree-tagger
│ └─ tree-tagger-flush
├─ cmd
│ ├─ chunker-read-lemma.perl
│ ├─ chunker-write-lemma.perl
│ ├─ filter-chunker-output-french.perl
│ ├─ filter-chunker-output-german.perl
│ ├─ filter-chunker-output.perl
│ ├─ filter-coordinate-output.perl
│ ├─ filter-german-tags
│ ├─ lookup.perl
│ ├─ mwl-lookup.perl
│ ├─ portuguese-post-tagging
│ ├─ portuguese-splitter.perl
│ ├─ split-romanian.perl
│ ├─ tagger-chunker-english
│ ├─ tagger-chunker-french
│ ├─ tagger-chunker-german
│ ├─ tagger-chunker-spanish
│ ├─ tokenize.pl
│ ├─ tree-tagger-bulgarian
│ ├─ tree-tagger-catalan
│ ├─ tree-tagger-czech
│ ├─ tree-tagger-dutch
│ ├─ tree-tagger-english
│ ├─ tree-tagger-estonian
│ ├─ tree-tagger-finnish
│ ├─ tree-tagger-french
│ ├─ tree-tagger-galician
│ ├─ tree-tagger-german
│ ├─ tree-tagger-italian
│ ├─ tree-tagger-latin
│ ├─ tree-tagger-middle-high-german
│ ├─ tree-tagger-polish
│ ├─ tree-tagger-portuguese
│ ├─ tree-tagger-portuguese-finegrained
│ ├─ tree-tagger-romanian
│ ├─ tree-tagger-russian
│ ├─ tree-tagger-slovak
│ ├─ tree-tagger-slovenian
│ ├─ tree-tagger-spanish
│ ├─ tree-tagger-spanish-ancora
│ ├─ tree-tagger-swahili
│ └─ utf8-tokenize.perl
├─ doc
│ ├─ nemlap94.ps
│ └─ sigdat95.ps
├─ english-chunker-par-linux-3.2-utf8.bin
├─ english-par-linux-3.2-utf8.bin.gz
├─ install-tagger.sh
├─ lib
│ ├─ bulgarian-abbreviations
│ ├─ bulgarian-mwls
│ ├─ catalan-abbreviations
│ ├─ czech-abbreviations-utf8
│ ├─ dutch-abbreviations
│ ├─ english-abbreviations
│ ├─ english-chunker
│ ├─ english-utf8.par
│ ├─ estonian-abbreviations-utf8
│ ├─ estonian-mwls-utf8
│ ├─ finnish-abbreviations-utf8
│ ├─ french-abbreviations
│ ├─ french-abbreviations-utf8
│ ├─ galician-abbreviations-utf8
│ ├─ galician-mwls
│ ├─ german-abbreviations
│ ├─ german-abbreviations-utf8
│ ├─ german-lexicon-utf8.txt
│ ├─ german-lexicon.txt
│ ├─ italian-abbreviations
│ ├─ latin-abbreviations
│ ├─ latin-mwls
│ ├─ middle-high-german-abbreviations-utf8
│ ├─ polish-abbreviations-utf8
│ ├─ portuguese-abbreviations-utf8
│ ├─ romanian-abbreviations
│ ├─ romanian-tokens
│ ├─ spanish-abbreviations
│ ├─ spanish-mwls
│ ├─ spanish-mwls-utf8
│ └─ swahili-abbreviations
├─ tagger-scripts.tar.gz
└─ tree-tagger-linux-3.2.1.tar.gz
参考
以下サイトを参考にインストールしました。
http://funoisan.blog.fc2.com/blog-entry-4.html
http://otani0083.hatenablog.com/entry/2013/10/01/195037
当方、プログラミング初心者のため
なるべくわかりやすく説明いただけると、大変助かります。
TreeTaggerを利用したことのある方いらっしゃいましたら、
ご教示いただけると幸いです。
どうぞよろしくお願いいたします。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+1
TreeTagger - 投野由紀夫 授業用ホームページ のNotesに書かれている情報が役に立つかもしれません。
東京外国語大学大学院総合国際学研究院の投野由紀夫教授は、コーパス言語学の研究者で、コーパス言語学会の会長をつとめていらっしゃいます。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.09%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
coco_bauer
2017/04/25 15:27
TreeTaggerのバージョンが異なる、使っている品詞辞書が異なる、といった事が原因ではないかと推測されます。システムのバージョンや、使われている辞書に差異がないか確認してみてください。