形態素解析で分割されてしまう単語をくっつけたい

<形態素解析で分割されてしまう単語をくっつけたい>
私は、knpとnltkを用いて、値の範囲を表現する語(～以上、～未満など)を抽出しようとしています。
抽出の仕方として、数値に着目しそれに共起する語に上記のような言葉が使用されていないか抽出しようと考えました。
考えて作成したプログラムだと、「100℃より小さい」といった表現の時に「100/℃/より/小さい」となってしまいます。
出来れば「100℃/より小さい」のようにして共起の抽出を行いたいです。

python
1import nltk
2from nltk import ngrams
3from pyknp import KNP
4import jctconv
5import re
6
7# knpで形態素解析を行ったあとの結果をリストで返す
8def separate(text,option = '-tab'):
9    tokens = []
10    knp = KNP(option = option)
11    result = knp.parse(jctconv.h2z(text,digit = True))
12
13    for mrph in result.mrph_list():
14        tokens.append(mrph.midasi)
15    return tokens
16
17# 形態素解析を行った結果から、共起の結果を得る
18def word_cooccurrence(list):
19    bigrams = nltk.bigrams(list) # バイグラムを作成
20    fd = nltk.FreqDist(bigrams) # バイグラムの出現頻度分布
21    return fd.items()
22
23if __name__ == '__main__':
24    with open('text.txt',encoding = 'utf8') as f:
25        text = f.read()
26    result = word_cooccurrence(separate(text))
27    print(result)
28
29<text.txt>
30ポット内の温度が１００℃より低い場合、水が沸騰しない。
31
32
33<実行結果>
34dict_items([(('ポット', '内'), 1), (('内', 'の'), 1), (('の', '温度'), 1), (('温度', 'が'), 1), (('が', '１００'), 1), (('１００', '℃'), 1), (('℃', 'より'), 1), (('より', '低い'), 1), (('低い', '場合'), 1), (('場合', '、'), 1), (('、', '水'), 1), (('水', 'が'), 1), (('が', '沸騰'), 1), (('沸騰', 'し'), 1), (('し', 'ない'), 1), (('ない', '。'), 1)])

<試したこと>
1．knpの関数で基本句のリストを返す「tag_list(self)」を用いてそのリスト内のrepnameと呼ばれる代表表記を返す部分で
「100℃」とかだと「100+℃」のように「+」が入っていたりするので、これを利用してくっつける。

2．nltkを用いて、下記のようなプログラムを記載し拡張することで解決しようとしました。
※形態素解析を用いていないのであまり意味がないと思っている。

python
1import nltk
2from nltk import ngrams
3from pyknp import KNP
4import jctconv
5import re
6
7def separate(text):
8    tokens = []
9    # knp = KNP()
10    ngrams_generator = ngrams(text, 8)
11    for word in ngrams_generator:
12        tokens.append(''.join(map(str,word)))
13    return tokens
14
15# 形態素解析を行った結果から、共起の結果を得る
16def word_cooccurrence(list):
17    bigrams = nltk.bigrams(list) # バイグラムを作成
18    fd = nltk.FreqDist(bigrams) # バイグラムの出現頻度分布
19    return fd.items()
20
21if __name__ == '__main__':
22    with open('text.txt',encoding = 'utf8') as f:
23        text = f.read()
24    result = word_cooccurrence(separate(text))
25    print(result)
26
27<実行結果>
28dict_items([(('ポット内の温度が', 'ット内の温度が１'), 1), (('ット内の温度が１', 'ト内の温度が１０'), 1), (('ト内の温度が１０', '内の温度が１００'), 1), (('内の温度が１００', 'の温度が１００℃'), 1), (('の温度が１００℃', '温度が１００℃よ'), 1), (('温度が１００℃よ', '度が１００℃より'), 1), (('度が１００℃より', 'が１００℃より低'), 1), (('が１００℃より低', '１００℃より低い'), 1), (('１００℃より低い', '００℃より低い場'), 1), (('００℃より低い場', '０℃より低い場合'), 1), (('０℃より低い場合', '℃より低い場合、'), 1), (('℃より低い場合、', 'より低い場合、水'), 1), (('より低い場合、水', 'り低い場合、水が'), 1), (('り低い場合、水が', '低い場合、水が沸'), 1), (('低い場合、水が沸', 'い場合、水が沸騰'), 1), (('い場合、水が沸騰', '場合、水が沸騰し'), 1), (('場合、水が沸騰し', '合、水が沸騰しな'), 1), (('合、水が沸騰しな', '、水が沸騰しない'), 1), (('、水が沸騰しない', '水が沸騰しない。'), 1), (('水が沸騰しない。', 'が沸騰しない。\n'), 1)])

行動規範の内容に同意します

回答1件

とりあえず文節で区切り、体言と用言をそれぞれ処理すると良さそうです。
ただし、

plain
1１００℃より小さい
2# S-ID:1 KNP:4.2-8db86d46 DATE:2018/06/22 SCORE:-11.60822
3１００℃より──┐  <体言>
4              小さい<用言:形><格解析結果:ガ/-;ニ/-;ヨリ/℃>
5EOS

という解析結果になるので、「より小さい」は得られません。

こういう研究なら、とりあえず数千件くらいのデータセットを作り、後は力技ルールベースでやっていくなり機械学習を入れるなりで手法を考えて実装し、評価していくことで進めていきます。
ただ、最近は情報抽出が流行っていないのと、一昔前にはけっこうやられててそれなりの成果が出た分野ではあるので、研究としてどうなの？　という点をはっきりさせないと続けるのがしんどくなるかもしれません（新規性の面で）。あとは頑張って既存研究を探す努力も必要になります。

投稿2018/06/22 06:36