質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.93%

ElasticSearch: Synonymを用いたsearchの方法

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,861

kinokawa

score 11

前提・実現したいこと

環境:CentOS6.5, Elasticsearch2.4.4 
synonymを用いた検索を試みています。
_analyzeにおいてsynonymの動作を確認できたものの、
_searchにおいて、検索結果にsynonymが反映されず、検索score値が上がらないという問題に悩んでいます。
原因がお分かりになる方がいらっしゃいましたらお知恵を拝借させてください。

動作確認済の範囲

# synonym辞書の中身
hattoriという文字列とyamatoという文字列をsynonymとして指定しています。
% cat /etc/elasticsearch/synonym.txt
hattori,yamato

# index(syn4)に対するanalyzer設定、サンプルデータ投入、setting確認
% curl -XPUT 'localhost:9200/syn4' -d '
{
    "settings": {
        "analysis": {
            "analyzer": {
                "synonym" : {
                    "tokenizer" : "whitespace",
                    "filter" : ["synonym"]
                }
            },
            "filter" : {
                "synonym" : {
                    "type" : "synonym",
                    "synonyms_path" : "synonym.txt"
                }
            }
        }
    }
}
'

#データ投入
% curl -XPUT 'localhost:9200/syn4/blog/1' -d '
{
  "title": "self introduction",
  "content": "my name is yamato"
}
'

#setting確認
% curl -XGET http://localhost:9200/syn4/_settings?pretty
{
  "syn4" : {
    "settings" : {
      "index" : {
        "creation_date" : "1492924084619",
        "analysis" : {
          "filter" : {
            "synonym" : {
              "type" : "synonym",
              "synonyms_path" : "synonym.txt"
            }
          },
          "analyzer" : {
            "synonym" : {
              "filter" : [ "synonym" ],
              "tokenizer" : "whitespace"
            }
          }
        },
        "number_of_shards" : "5",
        "number_of_replicas" : "1",
        "uuid" : "sPeReqCiTdiQmn9y6egxxx",
        "version" : {
          "created" : "2040499"
        }
      }
    }
  }
}

analyzeテスト
yamato,hattoriが両方とも見える

 curl -XGET 'http://localhost:9200/syn4/_analyze?analyzer=synonym' -d 'hattori'
{"tokens":[{"token":"hattori","start_offset":0,"end_offset":7,"type":"word","position":0},{"token":"yamato","start_offset":0,"end_offset":7,"type":"SYNONYM","position":0}]}

【問題の生じる箇所】

検索実行したログが以下となります。
hattoriで検索した際、yamatoでの検索よりも検索スコアが著しく低い(0.009585157)です。
また、synonym辞書にない語、例えば"hatta"にした際、わずかにスコアが高くなる(0.01程度)ことを確認しています。

% curl -XGET 'localhost:9200/syn4/_search' -d '
{
  "query": {
    "query_string": {
      "fields": ["content"],
      "query": "yamato"
    }
  }
}
'
{"took":4,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":1,"max_score":0.23218305,"hits":[{"_index":"syn4","_type":"blog","_id":"1","_score":0.23218305,"_source":
{
  "title": "self introduction",
  "content": "my name is yamato"
}
}]}}

% curl -XGET 'localhost:9200/syn4/_search' -d '
{
  "query": {
    "query_string": {
      "fields": ["content"],
      "query": "hattori"
    }
  }
}
'
{"took":14,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":1,"max_score":0.009585157,"hits":[{"_index":"syn4","_type":"blog","_id":"1","_score":0.009585157,"_source":
{
  "title": "self introduction",
  "content": "my name is yamato"
}
}]}}

 試したこと

http://qiita.com/yamadagenki/items/15cd190dc4e0f1b3e3fa 
を参考にanalyzerをquery内に指定した場合、元の"yamato"でもヒットできなくなりました。"hattori"も同様です。

% curl -XGET 'localhost:9200/syn4/_search' -d '
{
  "query": {
    "query_string": {
      "fields": ["content"],
      "query": "yamato", "analyzer": "synonym"
    }
  }
}
'
{"took":3,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":0,"max_score":null,"hits":[]}}
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

恐らくFilter名とanalyzer名が一緒なので、es側が判断できないんじゃないでしょうか。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/04/26 11:29

    ご回答いただきありがとうございました。
    filter名とanalyzer名を変更しただけでは意図通り動かなかったのですが、
    (※データ投入時にうまく設定すれば可能なのかもしれません)

    analyzerにdefaultを設定していなかったことが問題だと判明しました。
    解決の手がかりをいただき、ありがとうございました。

    【解決法】
    curl -XPUT 'localhost:9200/syn4' -d '
    {
    "settings": {
    "analysis": {
    "analyzer": {
    "default":{
    "tokenizer" : "whitespace",
    "filter" : ["synonym"]
    }
    },
    "filter" : {
    "synonym" : {
    "type" : "synonym",
    "synonyms_path" : "synonym.txt"
    }
    }
    }
    }
    }
    '

    テスト実行:
    (analyzerにanalyzerの"synonym"を指定せずにsynonym展開できることを確認できました)

    curl -XGET 'http://localhost:9200/syn4/_analyze?pretty' -d 'hattori'
    {"tokens":[{"token":"hattori","start_offset":0,"end_offset":7,"type":"word","position":0},{"token":"yamato","start_offset":0,"end_offset":7,"type":"SYNONYM","position":0}]}

    キャンセル

  • 2017/04/26 13:25

    そうか。デフォルトアナライザでしたか。
    default(or default_index or default_search)がないから、
    インデクシングとサーチでデフォルトアナライザが反映されなかったんですね。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.93%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る