質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Windows

Windowsは、マイクロソフト社が開発したオペレーティングシステムです。当初は、MS-DOSに変わるOSとして開発されました。 GUIを採用し、主にインテル系のCPUを搭載したコンピューターで動作します。Windows系OSのシェアは、90%を超えるといわれています。 パソコン用以外に、POSシステムやスマートフォンなどの携帯端末用、サーバ用のOSもあります。

Q&A

解決済

1回答

4837閲覧

英文の形態素解析ツール「TreeTagger」の使い方

aruri

総合スコア16

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Windows

Windowsは、マイクロソフト社が開発したオペレーティングシステムです。当初は、MS-DOSに変わるOSとして開発されました。 GUIを採用し、主にインテル系のCPUを搭載したコンピューターで動作します。Windows系OSのシェアは、90%を超えるといわれています。 パソコン用以外に、POSシステムやスマートフォンなどの携帯端末用、サーバ用のOSもあります。

0グッド

0クリップ

投稿2017/04/25 02:33

編集2017/04/25 07:35

###「TreeTagger」の使い方について

英文の形態素解析ツール「TreeTagger」を使って、英文を品詞に分解しています。
windows環境とlinux環境と両方にインストールしているのですが、どうやら返ってくる品詞コードが違うようで、原因がわからずにいます。

(以下の実行例では、
"I have seen you before." という英文を入力していますが、
"have" "seen" の品詞コードに差異があります。)

以下の品詞コードを確認すると、
"have" はVHPが、"seen"はVVN が返ってくるのが正しいようです。
つまり、Windows環境は正しく返ってくるのですが、Linux環境ではbe動詞も普通の動詞も
ごちゃまぜになって返ってきてしまいます。

これは、OSによる仕様なのでしょうか?
それとも、なにかファイルが足りていない、ということなのでしょうか。

品詞コード一覧
https://courses.washington.edu/hypertxt/csar-v02/penntable.html

###Windows環境 (Windows 8.1 64bit)

C:\TreeTagger\bin>tag-english sample_2.txt reading parameters ... tagging ... I PP I have VHP have seen VVN see you PP you before IN before . SENT . finished.

###Linux環境 (CentOS Linux release 7.3.1611 (Core))

[localhost treetagger]$ sudo echo "I have seen you before." | cmd/tree-tagger-english reading parameters ... tagging ... finished. I PP I have VBP have seen VBN see you PP you before IN before . SENT .

###インストールしたファイル
インストールしたファイルは、Windows・Linuxそれぞれ以下の通りです。
どちらも今月の4/20ごろにダウンロードしたもので、最新のバージョンと思われます。
バージョンは、どちらも3.2系のようですが、Linuxの3.2.1が原因なのでしょうか。
もしそうであれば、違うバージョンのものは現在入手できるのでしょうか?
http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ (ツリータガー公式サイト)

  • Windows

・tree-tagger-windows-3.2.zip ... ツリータガー本体
・english-par-linux-3.2-utf8.bin.gz ... 英語パラメータファイル
・english-chunker-par-linux-3.2-utf8.bin.gz ... (パラメータファイル?)

  • Linux

・tree-tagger-linux-3.2.1.tar.gz ... ツリータガー本体
・english-par-linux-3.2-utf8.bin.gz ... 英語パラメータファイル
・tagger-scripts.tar.gz ... タグ付けスクリプト
・install-tagger.sh ... インストール用のスクリプト

###インストールディレクトリ

windows ディレクトリ構成

├─bin │ └─chunk-english.bat │ └─chunk-french.bat │ └─chunk-german.bat │ └─sample.txt │ └─sample_2.txt │ └─tag-dutch.bat │ └─tag-english.bat │ └─tag-french.bat │ └─tag-german.bat │ └─tag-italian.bat │ └─tag-spanish.bat │ └─train-tree-tagger.exe │ └─tree-tagger-flush.exe │ └─tree-tagger.exe ├─cmd │ └─filter-chunker-output-french.perl │ └─filter-chunker-output-german.perl │ └─filter-chunker-output.perl │ └─mwl-lookup-greek.perl │ └─mwl-lookup.perl │ └─tokenize.pl │ └─utf8-tokenize.perl └─lib │ └─dutch-abbreviations │ └─english-abbreviations │ └─english-chunker.par │ └─english-utf8.par │ └─french-abbreviations │ └─german-abbreviations │ └─italian-abbreviations │ └─spanish-abbreviations │ └─spanish-mwls ├─INSTALL.txt └─README.txt

linux ディレクトリ構成

├─ COPYRIGHT ├─ FILES ├─ README ├─ README.script ├─ bin │ ├─ chunk-english │ ├─ separate-punctuation │ ├─ tag-english │ ├─ train-tree-tagger │ ├─ tree-tagger │ └─ tree-tagger-flush ├─ cmd │ ├─ chunker-read-lemma.perl │ ├─ chunker-write-lemma.perl │ ├─ filter-chunker-output-french.perl │ ├─ filter-chunker-output-german.perl │ ├─ filter-chunker-output.perl │ ├─ filter-coordinate-output.perl │ ├─ filter-german-tags │ ├─ lookup.perl │ ├─ mwl-lookup.perl │ ├─ portuguese-post-tagging │ ├─ portuguese-splitter.perl │ ├─ split-romanian.perl │ ├─ tagger-chunker-english │ ├─ tagger-chunker-french │ ├─ tagger-chunker-german │ ├─ tagger-chunker-spanish │ ├─ tokenize.pl │ ├─ tree-tagger-bulgarian │ ├─ tree-tagger-catalan │ ├─ tree-tagger-czech │ ├─ tree-tagger-dutch │ ├─ tree-tagger-english │ ├─ tree-tagger-estonian │ ├─ tree-tagger-finnish │ ├─ tree-tagger-french │ ├─ tree-tagger-galician │ ├─ tree-tagger-german │ ├─ tree-tagger-italian │ ├─ tree-tagger-latin │ ├─ tree-tagger-middle-high-german │ ├─ tree-tagger-polish │ ├─ tree-tagger-portuguese │ ├─ tree-tagger-portuguese-finegrained │ ├─ tree-tagger-romanian │ ├─ tree-tagger-russian │ ├─ tree-tagger-slovak │ ├─ tree-tagger-slovenian │ ├─ tree-tagger-spanish │ ├─ tree-tagger-spanish-ancora │ ├─ tree-tagger-swahili │ └─ utf8-tokenize.perl ├─ doc │ ├─ nemlap94.ps │ └─ sigdat95.ps ├─ english-chunker-par-linux-3.2-utf8.bin ├─ english-par-linux-3.2-utf8.bin.gz ├─ install-tagger.sh ├─ lib │ ├─ bulgarian-abbreviations │ ├─ bulgarian-mwls │ ├─ catalan-abbreviations │ ├─ czech-abbreviations-utf8 │ ├─ dutch-abbreviations │ ├─ english-abbreviations │ ├─ english-chunker │ ├─ english-utf8.par │ ├─ estonian-abbreviations-utf8 │ ├─ estonian-mwls-utf8 │ ├─ finnish-abbreviations-utf8 │ ├─ french-abbreviations │ ├─ french-abbreviations-utf8 │ ├─ galician-abbreviations-utf8 │ ├─ galician-mwls │ ├─ german-abbreviations │ ├─ german-abbreviations-utf8 │ ├─ german-lexicon-utf8.txt │ ├─ german-lexicon.txt │ ├─ italian-abbreviations │ ├─ latin-abbreviations │ ├─ latin-mwls │ ├─ middle-high-german-abbreviations-utf8 │ ├─ polish-abbreviations-utf8 │ ├─ portuguese-abbreviations-utf8 │ ├─ romanian-abbreviations │ ├─ romanian-tokens │ ├─ spanish-abbreviations │ ├─ spanish-mwls │ ├─ spanish-mwls-utf8 │ └─ swahili-abbreviations ├─ tagger-scripts.tar.gz └─ tree-tagger-linux-3.2.1.tar.gz

###参考
以下サイトを参考にインストールしました。
http://funoisan.blog.fc2.com/blog-entry-4.html
http://otani0083.hatenablog.com/entry/2013/10/01/195037

当方、プログラミング初心者のため
なるべくわかりやすく説明いただけると、大変助かります。

TreeTaggerを利用したことのある方いらっしゃいましたら、
ご教示いただけると幸いです。
どうぞよろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

coco_bauer

2017/04/25 06:27

TreeTaggerのバージョンが異なる、使っている品詞辞書が異なる、といった事が原因ではないかと推測されます。システムのバージョンや、使われている辞書に差異がないか確認してみてください。
guest

回答1

0

ベストアンサー

TreeTagger - 投野由紀夫 授業用ホームページ のNotesに書かれている情報が役に立つかもしれません。

東京外国語大学大学院総合国際学研究院の投野由紀夫教授は、コーパス言語学の研究者で、コーパス言語学会の会長をつとめていらっしゃいます。

投稿2017/04/25 08:25

coco_bauer

総合スコア6915

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

aruri

2017/04/26 01:06

Notesにあるように、tree-tagger-englishを修正したところ、Windows環境と同じコードが返るようになりました。 (一部差異がありますが、許容範囲です) 大変たすかりました、ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問