①ユーザー辞書(user.dic)に以下の単語を登録
タイトル,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原型,読み,発音,補足
メモリ,1000,1001,1,名詞,一般,技術用語,技術種別,ソフト,めもり,めもり,めもり,メモリ
パターン,1001,1001,1,名詞,一般,技術用語,設計種別,ハード,かいろせっけい,ぱたーん,ぱたーん,パターン
②以下のように”メモリのパターンを抽出”という文章を文章解析
mecab = MeCab.Tagger(r"-u user.dic")
parse = mecab.parse("メモリのパターンを抽出")
lines = parse.split('\n')
items = list((re.split('[\t,]', line) for line in lines))
print(items)
③print出力結果
※メモリとパターンのみ以下に記述します
['メモリ', '名詞', '一般', '技術用語', '技術種別', 'ソフト', 'めもり', 'めもり', 'めもり', 'メモリ']
['パターン', '名詞', '一般', '', '', '', '', 'パターン', 'パターン', 'パターン']
上記の通り、「メモリ」についてはユーザー辞書から抽出されていますが、「パターン」についてはシステム辞書から抽出されています。
ユーザー辞書の仕様として「”コスト”を低い値にしていると優先される」と認識しておりますが「パターン」については、そのように動作していないように見受けれます。
■補足 「メモリ」と「パターン」についてシステム辞書の内容
パターン,1285,1285,3626,名詞,一般,,,,,パターン,パターン,パターン
メモリ,1285,1285,3664,名詞,一般,,,,,メモリ,メモリ,メモリ
ユーザー辞書が優先されない原因について、ご存知の方いらっしゃいましたら、ご教授の程、宜しくお願い致します。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/04/27 07:03