質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

解決済

Windowsで、MeCabとCaboChaのエンコードが分からない

hapdap
hapdap

総合スコア0

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

1回答

0評価

0クリップ

32閲覧

投稿2019/12/09 06:35

編集2022/01/12 10:58

Windows 10で、MeCab・CaboChaを使用したいのですが、CaboChaに関して出力が得られず、困っています。
コンソール上ではなく、Python(3系)で実行することが目的です。

特に、エンコードに関してが原因ではないかと推察していますが、どこが原因なのか理解できていません。
解決策、アドバイス等をご教示頂ければと存じます。

以下、現状で調べてみた内容です。

  • MeCab・CaboChaとも、UTF-8の辞書でインストールした
  • コマンド プロンプトのデフォルトのエンコードはSHIFT-JISらしい
    • chcp → 932
  • このとき、mecabの入出力はこうなる(文字化けする)

彼はリンゴを食べた
彼はリン 險伜捷,荳€闊ャ,,,,,*
S 蜷崎ゥ・蝗コ譛牙錐隧・邨・ケ・,,,
を食べた 險伜捷,荳€闊ャ,,,,,*
EOS

  • Pythonで次のような"mecab_test.py"を作る

import MeCab

mecab = MeCab.Tagger("-Ochasen")

text = input()
mecab.parse("")
print(mecab.parseToNode(text))

  • 実行するとこうなる

彼はリンゴを食べた
彼 カレ 彼 名詞-代名詞-一般
は ハ は 助詞-係助詞
リンゴ リンゴ リンゴ 名詞-一般
を ヲ を 助詞-格助詞-一般
食べ タベ 食べる 動詞-自立 一段 連用形
た タ た 助動詞 特殊・タ 基本形

  • CaboChaの入出力はこうなる

彼はリンゴを食べた
彼はリンゴを食べた
EOS

(同じものを繰り返すだけになる)

  • Pythonで、次のような"cabocha_text.py"を作る

import CaboCha

c = CaboCha.Parser()
sentence = input()

print(c.parseToString(sentence))

tree = c.parse(sentence)
print(tree.toString(CaboCha.FORMAT_LATTICE))

  • 実行するとこうなる

Traceback (most recent call last):
File "cabocha_text.py", line 1, in <module>
import CaboCha
ModuleNotFoundError: No module named 'CaboCha'

CaboChaのモジュールをインストールできていないっぽい…? 下記Qiitaを参考にしてみましたが……
https://qiita.com/ayuchiy/items/17a2d48116b2da7535eb

  • chcp 65001を実行して、コマンドプロンプトのエンコードをUTF-8にしてみる
  • MeCabはこうなる

彼はリンゴを食べた
EOS

CaboChaはこうなる

彼はリンゴを食べた

EOS

12/10 11:20 追記

Q. MeCab・CaboChaはどこから入手しましたか?
A. MeCab・CaboChaとも公式サイトです。
MeCab:https://taku910.github.io/mecab/
CaboCha:https://taku910.github.io/cabocha/
いずれも、最新バージョンです。

Q. Pythonのバージョンは?
3.8.0です。

console

Python 3.8.0 (tags/v3.8.0:fa919fd, Oct 14 2019, 19:21:23) [MSC v.1916 32 bit (Intel)] on win32 Type "help", "copyright", "credits" or "license" for more information.

Q. バインディングできてないのでは?
A. アドバイスを受け、以下の内容を試してみました。

python

import CaboCha c = CaboCha.Parser() sentence = input() print(c.parseToString(sentence)) tree = c.parse(sentence) print(tree.toString(CaboCha.FORMAT_TREE))

console

>python setup.py install running install running build running build_py creating build creating build\lib.win32-3.8 copying CaboCha.py -> build\lib.win32-3.8 running build_ext building '_CaboCha' extension creating build\temp.win32-3.8 creating build\temp.win32-3.8\Release C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Tools\MSVC\14.16.27023\bin\HostX86\x86\cl.exe /c /nologo /Ox /W3 /GL /DNDEBUG /MD "-IC:\Program Files (x86)\CaboCha\sdk" -IC:\Users\***\AppData\Local\Programs\Python\Python38-32\include -IC:\Users\***\AppData\Local\Programs\Python\Python38-32\include "-IC:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Tools\MSVC\14.16.27023\ATLMFC\include" "-IC:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Tools\MSVC\14.16.27023\include" "-IC:\Program Files (x86)\Windows Kits\NETFXSDK\4.6.1\include\um" "-IC:\Program Files (x86)\Windows Kits\10\include\10.0.17763.0\ucrt" "-IC:\Program Files (x86)\Windows Kits\10\include\10.0.17763.0\shared" "-IC:\Program Files (x86)\Windows Kits\10\include\10.0.17763.0\um" "-IC:\Program Files (x86)\Windows Kits\10\include\10.0.17763.0\winrt" "-IC:\Program Files (x86)\Windows Kits\10\include\10.0.17763.0\cppwinrt" /EHsc /TpCaboCha_wrap.cxx /Fobuild\temp.win32-3.8\Release\CaboCha_wrap.obj CaboCha_wrap.cxx C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Tools\MSVC\14.16.27023\bin\HostX86\x86\link.exe /nologo /INCREMENTAL:NO /LTCG /DLL /MANIFEST:EMBED,ID=2 /MANIFESTUAC:NO "/LIBPATH:C:\Program Files (x86)\CaboCha\sdk" /LIBPATH:C:\Users\***\AppData\Local\Programs\Python\Python38-32\libs /LIBPATH:C:\Users\***\AppData\Local\Programs\Python\Python38-32\PCbuild\win32 "/LIBPATH:C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Tools\MSVC\14.16.27023\ATLMFC\lib\x86" "/LIBPATH:C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Tools\MSVC\14.16.27023\lib\x86" "/LIBPATH:C:\Program Files (x86)\Windows Kits\NETFXSDK\4.6.1\lib\um\x86" "/LIBPATH:C:\Program Files (x86)\Windows Kits\10\lib\10.0.17763.0\ucrt\x86" "/LIBPATH:C:\Program Files (x86)\Windows Kits\10\lib\10.0.17763.0\um\x86" libcabocha.lib /EXPORT:PyInit__CaboCha build\temp.win32-3.8\Release\CaboCha_wrap.obj /OUT:build\lib.win32-3.8\_CaboCha.cp38-win32.pyd /IMPLIB:build\temp.win32-3.8\Release\_CaboCha.cp38-win32.lib ライブラリ build\temp.win32-3.8\Release\_CaboCha.cp38-win32.lib とオブジェクト build\temp.win32-3.8\Release\_CaboCha.cp38-win32.exp を作成中 コード生成しています。 コード生成が終了しました。 running install_lib copying build\lib.win32-3.8\CaboCha.py -> C:\Users\***\AppData\Local\Programs\Python\Python38-32\Lib\site-packages copying build\lib.win32-3.8\_CaboCha.cp38-win32.pyd -> C:\Users\***\AppData\Local\Programs\Python\Python38-32\Lib\site-packages byte-compiling C:\Users\***\AppData\Local\Programs\Python\Python38-32\Lib\site-packages\CaboCha.py to CaboCha.cpython-38.pyc running install_egg_info Writing C:\Users\***\AppData\Local\Programs\Python\Python38-32\Lib\site-packages\cabocha_python-0.69-py3.8.egg-info

***:私のユーザー名が入ります

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

quickquip
quickquip

2019/12/09 06:43

> MeCab・CaboChaとも、UTF-8の辞書でインストールした どこから入手したものをどうやってインストールしましたか。 > 下記Qiitaを参考にしてみましたが…… あなたが参考にしたページはあなたの状況を判断する上では特に役に立ちません。質問の内容からすると\(5\)が成功していないはずで、だとするとそのページの通りにしていない\(できていない\)はずです。 あなたがやったことを書きましょう。
quickquip
quickquip

2019/12/09 06:44 編集

pythonも、どこから入手したものをどうやってインストールしたのかの情報があるといいかと思います。\(あるいはpythonと実行したときの最初の2行\)
hapdap
hapdap

2019/12/10 06:55

ありがとうございます。追記いたしました。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Windows 10

Windows 10は、マイクロソフト社がリリースしたOSです。Modern UIを標準画面にした8.1から、10では再びデスクトップ主体に戻され、UIも変更されています。PCやスマホ、タブレットなど様々なデバイスに幅広く対応していることが特徴です。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。