質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.09%

英文の形態素解析ツール「TreeTagger」の使い方

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 2,902

score 12

「TreeTagger」の使い方について

英文の形態素解析ツール「TreeTagger」を使って、英文を品詞に分解しています。
windows環境とlinux環境と両方にインストールしているのですが、どうやら返ってくる品詞コードが違うようで、原因がわからずにいます。

(以下の実行例では、
"I have seen you before." という英文を入力していますが、
"have" "seen" の品詞コードに差異があります。)

以下の品詞コードを確認すると、
"have" はVHPが、"seen"はVVN が返ってくるのが正しいようです。
つまり、Windows環境は正しく返ってくるのですが、Linux環境ではbe動詞も普通の動詞も
ごちゃまぜになって返ってきてしまいます。

これは、OSによる仕様なのでしょうか?
それとも、なにかファイルが足りていない、ということなのでしょうか。

品詞コード一覧
https://courses.washington.edu/hypertxt/csar-v02/penntable.html

Windows環境 (Windows 8.1 64bit)

C:\TreeTagger\bin>tag-english sample_2.txt
        reading parameters ...
        tagging ...
I       PP      I
have    VHP     have
seen    VVN     see
you     PP      you
before  IN      before
.       SENT    .
         finished.

Linux環境 (CentOS Linux release 7.3.1611 (Core))

[localhost treetagger]$ sudo echo "I have seen you before." | cmd/tree-tagger-english
        reading parameters ...
        tagging ...
         finished.
I       PP      I
have    VBP     have
seen    VBN     see
you     PP      you
before  IN      before
.       SENT    .

インストールしたファイル

インストールしたファイルは、Windows・Linuxそれぞれ以下の通りです。
どちらも今月の4/20ごろにダウンロードしたもので、最新のバージョンと思われます。
バージョンは、どちらも3.2系のようですが、Linuxの3.2.1が原因なのでしょうか。
もしそうであれば、違うバージョンのものは現在入手できるのでしょうか?
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ (ツリータガー公式サイト)

  • Windows
    ・tree-tagger-windows-3.2.zip ... ツリータガー本体
    ・english-par-linux-3.2-utf8.bin.gz ... 英語パラメータファイル
    ・english-chunker-par-linux-3.2-utf8.bin.gz ... (パラメータファイル?)
  • Linux
    ・tree-tagger-linux-3.2.1.tar.gz ... ツリータガー本体
    ・english-par-linux-3.2-utf8.bin.gz ... 英語パラメータファイル
    ・tagger-scripts.tar.gz ... タグ付けスクリプト
    ・install-tagger.sh ... インストール用のスクリプト

インストールディレクトリ

windows ディレクトリ構成

├─bin
│  └─chunk-english.bat
│  └─chunk-french.bat
│  └─chunk-german.bat
│  └─sample.txt
│  └─sample_2.txt
│  └─tag-dutch.bat
│  └─tag-english.bat
│  └─tag-french.bat
│  └─tag-german.bat
│  └─tag-italian.bat
│  └─tag-spanish.bat
│  └─train-tree-tagger.exe
│  └─tree-tagger-flush.exe
│  └─tree-tagger.exe
├─cmd
│  └─filter-chunker-output-french.perl
│  └─filter-chunker-output-german.perl
│  └─filter-chunker-output.perl
│  └─mwl-lookup-greek.perl
│  └─mwl-lookup.perl
│  └─tokenize.pl
│  └─utf8-tokenize.perl
└─lib
│  └─dutch-abbreviations
│  └─english-abbreviations
│  └─english-chunker.par
│  └─english-utf8.par
│  └─french-abbreviations
│  └─german-abbreviations
│  └─italian-abbreviations
│  └─spanish-abbreviations
│  └─spanish-mwls
├─INSTALL.txt
└─README.txt

linux ディレクトリ構成

├─ COPYRIGHT
├─ FILES
├─ README
├─ README.script
├─ bin
│   ├─ chunk-english
│   ├─ separate-punctuation
│   ├─ tag-english
│   ├─ train-tree-tagger
│   ├─ tree-tagger
│   └─ tree-tagger-flush
├─ cmd
│   ├─ chunker-read-lemma.perl
│   ├─ chunker-write-lemma.perl
│   ├─ filter-chunker-output-french.perl
│   ├─ filter-chunker-output-german.perl
│   ├─ filter-chunker-output.perl
│   ├─ filter-coordinate-output.perl
│   ├─ filter-german-tags
│   ├─ lookup.perl
│   ├─ mwl-lookup.perl
│   ├─ portuguese-post-tagging
│   ├─ portuguese-splitter.perl
│   ├─ split-romanian.perl
│   ├─ tagger-chunker-english
│   ├─ tagger-chunker-french
│   ├─ tagger-chunker-german
│   ├─ tagger-chunker-spanish
│   ├─ tokenize.pl
│   ├─ tree-tagger-bulgarian
│   ├─ tree-tagger-catalan
│   ├─ tree-tagger-czech
│   ├─ tree-tagger-dutch
│   ├─ tree-tagger-english
│   ├─ tree-tagger-estonian
│   ├─ tree-tagger-finnish
│   ├─ tree-tagger-french
│   ├─ tree-tagger-galician
│   ├─ tree-tagger-german
│   ├─ tree-tagger-italian
│   ├─ tree-tagger-latin
│   ├─ tree-tagger-middle-high-german
│   ├─ tree-tagger-polish
│   ├─ tree-tagger-portuguese
│   ├─ tree-tagger-portuguese-finegrained
│   ├─ tree-tagger-romanian
│   ├─ tree-tagger-russian
│   ├─ tree-tagger-slovak
│   ├─ tree-tagger-slovenian
│   ├─ tree-tagger-spanish
│   ├─ tree-tagger-spanish-ancora
│   ├─ tree-tagger-swahili
│   └─ utf8-tokenize.perl
├─ doc
│   ├─ nemlap94.ps
│   └─ sigdat95.ps
├─ english-chunker-par-linux-3.2-utf8.bin
├─ english-par-linux-3.2-utf8.bin.gz
├─ install-tagger.sh
├─ lib
│   ├─ bulgarian-abbreviations
│   ├─ bulgarian-mwls
│   ├─ catalan-abbreviations
│   ├─ czech-abbreviations-utf8
│   ├─ dutch-abbreviations
│   ├─ english-abbreviations
│   ├─ english-chunker
│   ├─ english-utf8.par
│   ├─ estonian-abbreviations-utf8
│   ├─ estonian-mwls-utf8
│   ├─ finnish-abbreviations-utf8
│   ├─ french-abbreviations
│   ├─ french-abbreviations-utf8
│   ├─ galician-abbreviations-utf8
│   ├─ galician-mwls
│   ├─ german-abbreviations
│   ├─ german-abbreviations-utf8
│   ├─ german-lexicon-utf8.txt
│   ├─ german-lexicon.txt
│   ├─ italian-abbreviations
│   ├─ latin-abbreviations
│   ├─ latin-mwls
│   ├─ middle-high-german-abbreviations-utf8
│   ├─ polish-abbreviations-utf8
│   ├─ portuguese-abbreviations-utf8
│   ├─ romanian-abbreviations
│   ├─ romanian-tokens
│   ├─ spanish-abbreviations
│   ├─ spanish-mwls
│   ├─ spanish-mwls-utf8
│   └─ swahili-abbreviations
├─ tagger-scripts.tar.gz
└─ tree-tagger-linux-3.2.1.tar.gz

参考

以下サイトを参考にインストールしました。
http://funoisan.blog.fc2.com/blog-entry-4.html
http://otani0083.hatenablog.com/entry/2013/10/01/195037

当方、プログラミング初心者のため
なるべくわかりやすく説明いただけると、大変助かります。

TreeTaggerを利用したことのある方いらっしゃいましたら、
ご教示いただけると幸いです。
どうぞよろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • coco_bauer

    2017/04/25 15:27

    TreeTaggerのバージョンが異なる、使っている品詞辞書が異なる、といった事が原因ではないかと推測されます。システムのバージョンや、使われている辞書に差異がないか確認してみてください。

    キャンセル

回答 1

checkベストアンサー

+1

TreeTagger - 投野由紀夫 授業用ホームページ のNotesに書かれている情報が役に立つかもしれません。

東京外国語大学大学院総合国際学研究院の投野由紀夫教授は、コーパス言語学の研究者で、コーパス言語学会の会長をつとめていらっしゃいます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/04/26 10:06

    Notesにあるように、tree-tagger-englishを修正したところ、Windows環境と同じコードが返るようになりました。
    (一部差異がありますが、許容範囲です)
    大変たすかりました、ありがとうございました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.09%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る