MeCabで形態素解析．カタカナを連続して取得したいが，分割されてしまいます、、、

前提

MeCabでのカタカナを連続して取得したい．

実現したいこと

MeCabを用いて，カタカナを途中で分割することなく，連続して取得したい．

発生している問題

例えば，ライトアップでは「ライト」「アップ」と解析されてしまう．
これを「ライトアップ」として取得したいのですが，辞書を改良するしかないのでしょうか．

試したこと

unidicやipadicで試しましたが，同じ結果になりました．

python
1import re
2import time
3import codecs
4import MeCab
5
6if __name__ == '__main__':
7    file = codecs.open("/content/dataset_kurashiki_spring_test.txt", 'r', 'utf-8')   #ファイルを開いてファイルオブジェクトを取得(codecs.open())
8    documents = [document.strip() for document in file]    #strip()で空白文字を削除
9    file.close()
10
11    # number of documents
12    N = len(documents)
13    print(N)
14
15    segList = []
16    for document in documents: 
17        mecab = MeCab.Tagger()
18        #print(document)
19        mecab.parse('')
20        
21        data = mecab.parse(document)
22        node = mecab.parseToNode(document)
23        #print(node)
24
25        while node:
26            if node.feature.split(",")[0] == u"名詞":
27                segList.append(node.surface)
28
29            node = node.next
30    print(segList)

行動規範の内容に同意します

回答2件

mecab-ipadic-NEologdなら分割されませんでした

% mecab -D
filename:	/opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/sys.dic

% echo 'ライトアップ' | mecab
ライトアップ	名詞,一般,*,*,*,*,ライトアップ,ライトアップ,ライトアップ
EOS

投稿2022/12/06 12:04

technocore

総合スコア7398

maro

2022/12/06 12:52

ご指摘いただいた通り，mecab-ipadic-NEologdの辞書を用いたのですが，上手くいきませんでした．コードに何か問題があるのでしょうか．

行動規範の内容に同意します

ベストアンサー

辞書をどうにかするしかありません。

カタカナの連結を常に1単語にするなら辞書のunk.defで連結コストを0にして辞書をビルドするという手もあります。

KATAKANA,1285,1285,9461,名詞,一般,*,*,*,*,*
↓
KATAKANA,1285,1285,0,名詞,一般,*,*,*,*,*↲

参考
https://taku910.github.io/mecab/learn.html
http://blog.mwsoft.jp/article/40647298.html

投稿2022/12/06 12:47

編集2022/12/07 02:36

quickquip

総合スコア11305

maro

2022/12/15 08:20

解決しました！！ありがとうございます！！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

MeCabで形態素解析．カタカナを連続して取得したいが，分割されてしまいます、、、

前提

実現したいこと

発生している問題

試したこと

関連した質問