デフォルトのjanome+簡略辞書(自作の簡易辞書)で形態素解析を行ったあとに、
t = Tokenizer(r"C:---\dict_simple_utf8sig.csv", udic_type="simpledic", udic_enc="utf-8-sig")
以下のサイト(*1)を参考に、NEologd辞書を内包したjanomeで形態素解析を行ったところ、
t = Tokenizer(r"C:---\dict_simple_utf8sig.csv", udic_type="simpledic", udic_enc="utf-8-sig", mmap=True)
途端にエラーが出るようになりました。
Traceback (most recent call last):
File ".\tokenizing_SFDC_pd.py", line 32, in <module>
t = Tokenizer(r"C:---\tokenizing\dict_simple_utf8sig.csv", udic_type="simpledic", udic_enc="utf-8-sig", mmap=True)#Tokenizer初期化
File "C:\Users---\Python36\lib\site-packages\janome\tokenizer.py", line 168, in init
self.user_dic = UserDictionary(udic, udic_enc, udic_type, connections)
File "C:\Users---\Python\Python36\lib\site-packages\janome\dic.py", line 374, in init
compiledFST, entries = build_method(user_dict, enc)
File "C:\Users---\Python\Python36\lib\site-packages\janome\dic.py", line 404, in buildsimpledic
surface, pos_major, reading = line.split(',')
ValueError: too many values to unpack (expected 3)
※プライバシーに関わりそうな箇所を---にしております。
同時に二つの辞書を利用することはできないのでしょうか。
ご教授くださると幸甚です。
(*1) (very experimental) NEologd 辞書を内包した janome をビルドする方法
https://github.com/mocobeta/janome/wiki/(very-experimental)-NEologd-%E8%BE%9E%E6%9B%B8%E3%82%92%E5%86%85%E5%8C%85%E3%81%97%E3%81%9F-janome-%E3%82%92%E3%83%93%E3%83%AB%E3%83%89%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95
Janome-0.3.6.neologd-20180409.tar.gz
https://drive.google.com/drive/folders/0BynvpNc_r0kSd2NOLU01TG5MWnc
あなたの回答
tips
プレビュー