質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Q&A

解決済

1回答

3888閲覧

CaboChaの文字コードをMacabと合わせたい

testcase

総合スコア18

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

0グッド

0クリップ

投稿2018/09/10 19:28

編集2018/09/11 04:22

お世話になります。

CaboChaをインストールしようとしておりまして、
既存の情報から
Mecab-0.996
CRF++-0.58
までをインストールしました。

CaboCha-0.69は

bash

1LDFLAGS="-Wl,-rpath=/usr/local/lib -L/usr/local/lib" 2./configure --with-charset=UTF-8 --enable-utf8-only 3--with-mecab-config=`which mecab-config` 4--prefix=/hogehoge/cabocha

のような感じでconfigureして、makeとmake installしました。
(インストールまでできました。)

その後、

Bash

1% cabocha

としたところ、

Bash

1Cannot parse utf8-only 2morph.cpp(187) [charset() == decode_charset(dinfo->charset)] 3Incompatible charset: MeCab charset is utf8-only, 4Your charset is UTF8

となりました。

MaCabは

Bash

1./configure --with-charset=UTF-8 --enable-utf8-only 2--prefix=/hogehoge/mecab

としたのですが、だいたい既存の情報を元にしているので
ここから先で途方に暮れております。

この文字コードのズレを解消したいと考えております。
いくらか情報も不足していると思いますが、
ご教授いただけますと幸いです。

よろしくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

quickquip

2018/09/11 00:46

Pythonのタグは外しましょう。なにも関係がないので。
testcase

2018/09/11 04:24

ありがとうございます。確かにそうですね。後のPythonバインディングの作業が念頭にありましたので、書いてしまってました。外しました。
guest

回答1

0

ベストアンサー

mecabもcabochaも--with-charset=utf8ではないかと。
(私自身はmecab本体にこのオプションを立てたことがないのですが、mecabの辞書とcabochaのコンパイルではそうしてました。)

コードを見た感じ--enable-utf8-onlyがあればそこは問題にならないように見えました。

これは、mecab(かcabocha)はUTF-8で指定されているけど辞書がそうなってないぞ、というメッセージじゃないでしょうか?

辞書はどうコンパイルしましたか?
mecabrcはutf-8でコンパイルした辞書をちゃんと指していますか?
mecab UTF-8の中身のテキストファイル としてちゃんと解析できますか?

このあたりを補足/確認するといいのではないでしょうか?

投稿2018/09/11 00:22

編集2018/09/11 00:42
quickquip

総合スコア11038

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

testcase

2018/09/11 04:25

ありがとうございます。この通りでした。 ./configure --with-charset=UTF-8 --enable-utf8-only とすると問題なく動きました。
quickquip

2018/09/11 04:30

解決されて何よりです。このコメントは辞書のコンパイルの時ということでいいですか? 一応情報として書いておきますが、辞書のconfigureには --enable-utf8-only オプションは無くて、 --with-charset=UTF-8 の方だけが意味があります。
quickquip

2018/09/11 04:30

(私はいつも --with-charset=utf8 と書いているんですが同じなのかしら……??)
testcase

2018/09/11 04:34

なるほど、そうなのですね。これまでのエラーメッセージで、ずっと「MeCab CharSet is utf8-only」とあったので、気になってつけておりました。また不具合が起こりましたらご報告致します。ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問