質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Elasticsearch

Elasticsearchは、クラウド向けに構築された、RESTful な API を提供する分散型のサーチエンジンアプリケーションです。

Q&A

1回答

2389閲覧

Elasticsearchのkuromojiトークナイザーのマッチングについて

退会済みユーザー

退会済みユーザー

総合スコア0

Elasticsearch

Elasticsearchは、クラウド向けに構築された、RESTful な API を提供する分散型のサーチエンジンアプリケーションです。

0グッド

0クリップ

投稿2016/03/01 05:50

編集2022/01/12 10:55

Elasticsearchのkuromojiプラグインを使って、漢字の人名をかな検索できるようにしたいと考えています。

実装方法としては、以下のURLのページを参考に、まずは辞書データを作成し、投入したデータを辞書に沿って分解、それをカタカナに変換してインデックスし、そのカタカナにマッチすれば検索条件に適合したとみなしています。

(参考URL: http://qiita.com/susieyy/items/767dbc4662660ad18ea1)

問題としては、辞書データのマッチングが最小単位で行われてしまい、本来想定している解析結果とならない点です。

具体的には「田中」というデータに対して辞書に「田中」が存在するにも関わらず、「田」と「中」に分けられてしまいます。(こちらも辞書データが存在します)

形態素解析を最大単位で行いたいのですが、どのようにしたらよいのでしょうか。

私自身の試行錯誤としては以下のgithubページを参照し、「kuromoji_tokenizer」のmodeをnormalにするなどしましたが、結果は変わりませんでした。

https://github.com/elastic/elasticsearch-analysis-kuromoji

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

kuromojiのトークナイザーで基本的な設定をしていれば、「田中」は「田」と「中」になることはないと思います。
辞書で「田中」を設定されているということなのでそちらを削除してはいかがでしょうか?

投稿2016/03/11 01:14

arly_times

総合スコア100

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問