質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

4168閲覧

【Python】Mecab ユーザー辞書へ登録した単語が優先される単語とされない単語がある

lemonesour

総合スコア25

Mecab

Mecabは、オープンソースの形態素解析エンジンです。 言語、辞書、コーパスに依存しない汎用的な設計を基本方針としています。 Mecabの由来は、開発者の好物である和布蕪(めかぶ)から名づけられました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/04/27 06:20

編集2021/04/27 06:29

①ユーザー辞書(user.dic)に以下の単語を登録
タイトル,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原型,読み,発音,補足
メモリ,1000,1001,1,名詞,一般,技術用語,技術種別,ソフト,めもり,めもり,めもり,メモリ
パターン,1001,1001,1,名詞,一般,技術用語,設計種別,ハード,かいろせっけい,ぱたーん,ぱたーん,パターン

②以下のように”メモリのパターンを抽出”という文章を文章解析
mecab = MeCab.Tagger(r"-u user.dic")
parse = mecab.parse("メモリのパターンを抽出")
lines = parse.split('\n')
items = list((re.split('[\t,]', line) for line in lines))
print(items)

③print出力結果
※メモリとパターンのみ以下に記述します

['メモリ', '名詞', '一般', '技術用語', '技術種別', 'ソフト', 'めもり', 'めもり', 'めもり', 'メモリ']
['パターン', '名詞', '一般', '', '', '', '', 'パターン', 'パターン', 'パターン']

上記の通り、「メモリ」についてはユーザー辞書から抽出されていますが、「パターン」についてはシステム辞書から抽出されています。

ユーザー辞書の仕様として「”コスト”を低い値にしていると優先される」と認識しておりますが「パターン」については、そのように動作していないように見受けれます。

■補足 「メモリ」と「パターン」についてシステム辞書の内容
パターン,1285,1285,3626,名詞,一般,,,,,パターン,パターン,パターン
メモリ,1285,1285,3664,名詞,一般,,,,,メモリ,メモリ,メモリ

ユーザー辞書が優先されない原因について、ご存知の方いらっしゃいましたら、ご教授の程、宜しくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ユーザー辞書の文脈IDが不自然だからでしょう。
名詞,一般の1285に合わせたらどうでしょう。

投稿2021/04/27 06:49

quickquip

総合スコア11038

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

lemonesour

2021/04/27 07:03

>quickquip様 ご指摘の通り、文脈IDを1285に修正したら、ユーザー辞書が優先されるようになりました。 ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問