Elasticsearchのkuromojiプラグインを使って、漢字の人名をかな検索できるようにしたいと考えています。
実装方法としては、以下のURLのページを参考に、まずは辞書データを作成し、投入したデータを辞書に沿って分解、それをカタカナに変換してインデックスし、そのカタカナにマッチすれば検索条件に適合したとみなしています。
(参考URL: http://qiita.com/susieyy/items/767dbc4662660ad18ea1)
問題としては、辞書データのマッチングが最小単位で行われてしまい、本来想定している解析結果とならない点です。
具体的には「田中」というデータに対して辞書に「田中」が存在するにも関わらず、「田」と「中」に分けられてしまいます。(こちらも辞書データが存在します)
形態素解析を最大単位で行いたいのですが、どのようにしたらよいのでしょうか。
私自身の試行錯誤としては以下のgithubページを参照し、「kuromoji_tokenizer」のmodeをnormalにするなどしましたが、結果は変わりませんでした。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。