ElasticSearch6.2でkuromojiを使いたい
解決済
回答 1
投稿
- 評価
- クリップ 0
- VIEW 842
はじめに
まだあまりElasticSearchを理解しておりません。
環境
ElasticSearch6.2
Kibanaを使った操作
やりたいこと
トークナイズ?にkuromojiを使ってみたい。
やったこと
kuromojiが入っていることを確認。
GET /_analyze
{
"tokenizer": "kuromoji_tokenizer",
"text": "今日はとてもいい天気ですね"
}
Indexの作成
PUT /kuromoji
{
"index":{
"analysis":{
"tokenizer" : {
"kuromoji" : {
"type" : "kuromoji_tokenizer"
}
},
"analyzer" : {
"analyzer" : {
"type" : "custom",
"tokenizer" : "kuromoji"
}
}
}
}
}
適当にデータを入れてみる。
データを入れると、解析機がuni-gramではなく、
kuromojiを使った分かち書きになる…という認識ですが間違っていますでしょうか?
POST kuromoji/sentence
{
"text": "あるところに、かわいそうな乞食の子がありました。"
}
POST kuromoji/sentence
{
"text": "さびしい村の方から、毎日、町の方へ、ものをもらいに追い出されました。けれど、小さな足には、なにもはくものがなかったのです。子供は跣足で、長い石ころの多い道を、とぼとぼと歩かなければならなかったのでした。"
}
POST kuromoji/sentence
{
"text": "夏の暑い日のことであります。地の面は乾いて、石は、熱く焼けていました。しかし子供は、足になにもはくものがなかったので、その上を跣足で歩いていました。通りすがりの人たちは、このかわいそうな乞食の子を見ましても、やさしい声ひとつ、かけてくれるものはありませんでした。"
}
※青空文庫より、長ぐつの話
検索してみる。
以下の文章は、3つ目に投入した文章の一部です。
しかしなぜか2つ目に投入した文章の類似度が一番高でて、3つ目の文章は最下位の類似度でした。
これはkuromojiが正常に反映されているのでしょうか。
GET kuromoji/sentence/_search
{
"query": {
"match": {
"text": "足になにもはくものがなかったので"
}
}
}
質問まとめ/聞きたいこと
- 上記設定を行ったElasticSearchにデータを投入した際、投入されたデータはkuromojiで解析されている認識でよろしいでしょうか?
- 検索時に、クエリで投げた文章とすでにElasticSearchに入っている情報共に、kuromojiで解析されている認識でよろしいでしょうか?
- 現在の検索でkuromojiが使われているかを確認する方法はあるのでしょうか?
- 既存のIndexの解析機をkuromojiに変更することはできるのでしょうか?
ご存知のかたがいらっしゃいましたら、ご教示いただけますと幸いです。
よろしくお願いいたします。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+1
取り急ぎ、mapping定義をしないといけないのではないでしょうか。
http://pppurple.hatenablog.com/entry/2017/05/28/141143
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.23%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
2019/05/09 11:15
マッピングで設定しないといけないんですね…
INDEX作ったときの
"tokenizer" : {
"kuromoji" : {
"type" : "kuromoji_tokenizer"
}
}
の「tokenizer」の設定は何だったのか……
一応やったことまとめました。
https://nnahito.com/articles/26