JanomeのAnalyzer中の引数(token_filters = token

サイト通りのコードを入力したのですが、エラーが出てしまいます。
問題箇所のエラーを調べたのですが、どこを探しても

Analyzer(token_filters = token_filters)

に関する記述がありませんでした。

下記にスクリプトとエラー内容を掲載しますので、どなたか詳しい方教えていただけませんか。
よろしくお願い致します。

スクリプト↓

python
1from janome.tokenizer import Tokenizer
2from janome.analyzer import Analyzer
3from janome.tokenfilter import *
4text = u'すもももももももものうち'
5token_filters = [POSKeepFilter('名詞'), TokenCountFilter(att='base_form')]
6a = Analyzer(token_filters = token_filters)
7for k, v in a.analyze(text):
8    print('%s: %d' % (k, v))

エラー内容↓

python
1SyntaxError                               Traceback (most recent call last)
2~/anaconda3/lib/python3.6/site-packages/sysdic/__init__.py in entries(compact)
3     22         try:
4---> 23             from sysdic import entries_compact0, entries_compact1, entries_compact2, entries_compact3, entries_compact4, entries_compact5, entries_compact6, entries_compact7, entries_compact8, entries_compact9
5     24         except:
6
7SyntaxError: invalid token (entries_compact0.py, line 2)
8
9During handling of the above exception, another exception occurred:
10
11LoadingDictionaryError                    Traceback (most recent call last)
12<ipython-input-15-d7a250153fe3> in <module>()
13      4 text = u'すもももももももものうち'
14      5 token_filters = [POSKeepFilter('名詞'), TokenCountFilter(att='base_form')]
15----> 6 a = Analyzer(token_filters)
16      7 for k, v in a.analyze(text):
17      8     print('%s: %d' % (k, v))
18
19~/anaconda3/lib/python3.6/site-packages/janome/analyzer.py in __init__(self, char_filters, tokenizer, token_filters)
20     83         """
21     84         if not tokenizer:
22---> 85             self.tokenizer = Tokenizer()
23     86         elif tokenizer.wakati:
24     87             raise Exception('Invalid argument: A Tokenizer with wakati=True option is not accepted.')
25
26~/anaconda3/lib/python3.6/site-packages/janome/tokenizer.py in __init__(self, udic, udic_enc, udic_type, max_unknown_length, wakati, mmap)
27    162             self.sys_dic = MMapSystemDictionary(mmap_entries(wakati), connections, chardef.DATA, unknowns.DATA)
28    163         else:
29--> 164             self.sys_dic = SystemDictionary(entries(wakati), connections, chardef.DATA, unknowns.DATA)
30    165         if udic:
31    166             if udic.endswith('.csv'):
32
33~/anaconda3/lib/python3.6/site-packages/sysdic/__init__.py in entries(compact)
34     23             from sysdic import entries_compact0, entries_compact1, entries_compact2, entries_compact3, entries_compact4, entries_compact5, entries_compact6, entries_compact7, entries_compact8, entries_compact9
35     24         except:
36---> 25             raise LoadingDictionaryError()
37     26         __entries = entries_compact0.DATA
38     27         __entries.update(entries_compact1.DATA)
39
40LoadingDictionaryError:

行動規範の内容に同意します

回答1件

ベストアンサー

こちらの環境では質問文のコードは問題なく実行できました。

txt
1Python 3.6.3 |Anaconda custom (64-bit)| (default, Oct 15 2017, 03:27:45) [MSC v.1900 64 bit (AMD64)]

エラーメッセージを見る限りでは、辞書ファイルを読もうとしてライブラリ内部でエラーが発生しているように見受けられます。

James1201さんへ
辞書はデフォルトのではなく新規語に対応できるようにアップデートした

そういう重要な事項はどういう手順で辞書のアップデートを行ったのかも含めて質問文に追記してくださいな。。。

具体的なエラーと言われても、こちらの環境では問題を再現できないので、現状質問文で提示されている情報以上の事はわかりません。

SyntaxError: invalid token (entries_compact0.py, line 2)

site-packages\sysdic\entries_compact0.pyの2行目で無効なトークンのエラー。

(very experimental) NEologd 辞書を内包した janome をビルドする方法

Tokenizer 初期化

Tokenizer 初期化時，mmap=True オプションが必須です。このオプションをつけないと， LoadingDictionaryError が発生します。

よって、問題は

a = Analyzer(token_filters)

でself.tokenizer = Tokenizer()が引数無し呼び出されているのが問題なため、
Tokenizerを生成しAnalyzerの引数として渡せばよいのでは。

Python
1# -*- coding: utf-8 -*-
2from janome.tokenizer import Tokenizer
3from janome.analyzer import Analyzer
4from janome.tokenfilter import *
5text = u'すもももももももものうち'
6tokenizer = Tokenizer(mmap=True)
7token_filters = [POSKeepFilter('名詞'), TokenCountFilter(att='base_form')]
8a = Analyzer(tokenizer=tokenizer, token_filters = token_filters)
9for k, v in a.analyze(text):
10    print('%s: %d' % (k, v))
11