前提・実現したいこと
機械学習の勉強の為にmecabで特定の品詞を抽出しようとしています。
デフォルト辞書での結果に納得がいかず、NEologd辞書を導入したのですが、
一部の単語で正しく動作せず、後の処理でエラーとなってします。
正しく動作させる為にアドバイスをお願いします。
オプション「-Ochasen」を使えば正しく動作するので回避は可能なのですが、
問題があるのであれば早めに対処しておきたいと思い、書き込みしました。
発生している問題・エラーメッセージ
戻り値の末尾に余分なリストがついてくる(下記参照)
該当のソースコード
python
1import MeCab 2tagger = MeCab.Tagger("-d ..\dic\ipadic-neologd") 3sentence="一番人気の" 4 5tagger.parse("") 6tagger.parse(sentence) 7#>>>一番人気 名詞,固有名詞,一般,*,*,*,1番人気,イチバンニンキ,イチバンニンキ,[:_:3726 3689 7806] 8#>>>の 助詞,連体化,*,*,*,*,の,ノ,ノ
試したこと
・オプション-Ochasenでは正しく動作します。
・他の事例について確認
二種類 名詞,固有名詞,一般,,,,2種類,ニシュルイ,ニシュルイ,[:_:2635 2609 8281]
一番手 名詞,固有名詞,一般,,,,1番手,イチバンテ,イチバンテ,[:_:1817 1799 8281]
一階 名詞,固有名詞,人名,姓,,,一階,イッカイ,イッカイ
漢数字を含む単語の一部で発生しているようです。
補足情報(FW/ツールのバージョンなど)
Windows10 64bit
Python 3.6.6 |Anaconda custom (64-bit)
NEologd辞書はこちらを参考に導入しました。
よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー