質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Elasticsearch

Elasticsearchは、クラウド向けに構築された、RESTful な API を提供する分散型のサーチエンジンアプリケーションです。

Q&A

解決済

1回答

2571閲覧

elasticsearchで「五十嵐潤司」を「い」とか「じゅ」でヒットさせたい

takashi1234

総合スコア7

Elasticsearch

Elasticsearchは、クラウド向けに構築された、RESTful な API を提供する分散型のサーチエンジンアプリケーションです。

0グッド

0クリップ

投稿2016/08/12 01:51

###前提・実現したいこと
elasticsearchで「五十嵐潤司」を「い」とか「じゅ」でヒットさせたい

###アプローチ

  1. kuromoji_readformでカタカナ変換する
  2. カタカナ1文字ずつローマ字変換する。但し拗音はローマ字1文字に変換する。

上記のように転置インデックスをつくれば実現可能だとは思うのですが、カタカナ変換まではkuromoji_readingformでできますが、そこからのカタカナ1文字ずつをローマ字変換する事ができなくて困っています。

###補足情報(言語/FW/ツール等のバージョンなど)

elasticsearchのバージョンは2.3.5です。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

coco_bauer

2016/08/12 05:56

カタカナ変換されたものを、ひらがなに変える。ひらがなに変わったものから「い」とか「じゅ」を含むものを探せば良いのではないでしょうか。ローマ字に変える必要は無さそうに思えます。
guest

回答1

0

ベストアンサー

ローマ字にこだわっているのでサジェスト機能に使おうとしているのでしょうか?
kuromoji_tokenizerの使い方には2通りあって、"filter" 内で **"use_romaji" : false **と宣言すればカタカナ出力、 **"use_romaji" : true **と宣言すればローマ字出力になりますから、わざわざカタカナ変換からローマ字に変換する必要はありません。

気になるのは、「但し拗音はローマ字1文字に変換する。」の部分にこだわらない場合ですが。
これにこだわるのでしたら、"char_filter"の**"type": "mapping"**でカタカナ一文字づつを個別に指定する面倒な方法が存在します。

投稿2016/08/19 06:58

min2min

総合スコア24

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問