Mecab 熟語リストの作成　Python

前提・実現したいこと

MeCabを用いて，熟語を抽出したいです．熟語の抽出方法は，文章から名詞を抽出し，前後の名詞を連結させ，それも名詞であったときに熟語であるとします．

発生している問題・エラーメッセージ

前後の名詞を連結させリストを作成することはできました．該当のソースコードがそれにあたります．
しかし，連結させたリストを名詞かどうか判定させる方法がよくわかりません．for文で1単語ずつ形態素解析を行ったのですが，連結する前の個々の単語を認識してしまいます．

該当のソースコード

Python
1import html2text
2import urllib.request
3import codecs
4import MeCab
5
6url = "https://www.aozora.gr.jp/cards/000081/files/456_15050.html"
7savefile = "ginga.html"
8urllib.request.urlretrieve(url, savefile)
9with codecs.open(savefile, "r", "shift_jis") as f:
10    htmltext = f.read()
11text = html2text.html2text(htmltext)
12
13savefile2 = "ginga.txt"
14with codecs.open(savefile2, "w", "utf-8") as f:
15    f.write(text)
16
17tagger = MeCab.Tagger()
18tagger.parse("")
19node = tagger.parseToNode(text)
20
21result_noun = []
22result_verb = []
23result_adjective = []
24
25while node is not None:
26    hinshi = node.feature.split(",")[0]
27    if hinshi in ["名詞"]:
28        result_noun += [node.surface]
29    elif hinshi in ["動詞"]:
30        result_verb += [node.surface]
31    elif hinshi in ["形容詞"]:
32        result_adjective += [node.surface]
33    node = node.next
34
35renketu_list = [result_noun[i] + result_noun[i+1] for i in range(len(result_noun)-1)]
36
37print(renketu_list)

試したこと

Python
1result_noun2 = []
2for new_noun in renketu_list:
3    tagger = MeCab.Tagger()
4    tagger.parse("")
5    node = tagger.parseToNode(new_noun)
6    while node is not None:
7        hinshi = node.feature.split(",")[0]
8        if hinshi in ["名詞"]:
9            result_noun2 += [node.surface]
10        node = node.next
11print(result_noun2)

上記のプログラムだと，連結された単語をさらに分割して解析してしまうので，うまくいきません．連結された単語そのものが名詞であるかどうかを判定したいです．

補足情報（FW/ツールのバージョンなど）

Colaboratoryで実行しています．

sfdust

2020/11/26 11:20 編集

たとえば「私は医者である。」というtextを上のプログラムに通すと renketu_listには「私医者」という要素が入ります。この「私医者」という単語を再度mecabに通して「名詞」として判定された場合は、「私医者」という語句を熟語として判定する、という動作を希望されているのでしょうか？それとも単に、名詞が２つ以上連続する要素を抽出したいだけなのでしょうか？

退会済みユーザー

2020/11/26 14:14

前者の動作を希望します．名詞を連結された後の単語が名詞と判定された場合，熟語とみなしてほしいです．