mecabで形態素解析をする際に活用形を原形に統一する

Mecabで形態素解析をし、文章のベクトル生成を目的としています。

以下のコードで単語ごと(名詞、動詞、形容詞)に分割が出来たのですが、活用形がばらばらになっています。活用形を統一して単語ベクトルの生成を行いたいです。

活用形の統一、原形に直す処理の仕方を教えて頂きたいです。よろしくお願い致します。

python
1
2def split_word(text):
3    tagger = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
4    node = tagger.parseToNode(text)
5    word_list = []
6    while node:
7        pos = node.feature.split(",")[0]
8        if pos in ["名詞", "動詞", "形容詞"]:
9            word = node.surface
10            word_list.append(word)
11        node = node.next
12    return " ".join(word_list)
13

頂いた情報より手探りでコードを書き換えてみたのですがエラーが出てしまいました。

python
1
2def split_word(text,category):
3    tagger = MeCab.Tagger('-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
4    sentense = ""
5    node = tagger.parseToNode(text)
6    word_list = []
7
8    while node:
9        #指定した品詞(category)のみ原型で抽出
10        if node.feature.split(",")[0] == category:
11            sentense += " "+node.feature.split(",")[6] #★変更点
12        else:pass
13        word_list.append(sentense)
14        node = node.next
15    return " ".join(word_list)
16


  File "pandas/_libs/lib.pyx", line 2859, in pandas._libs.lib.map_infer
TypeError: split_word() missing 1 required positional argument: 'category'

quickquip

2021/12/13 23:54

関数に引数を増やしたのに、呼び出し元を変えていないのでは?

行動規範の内容に同意します

回答1件

動詞の活用形を基本形に戻して分かち書きし，分かち書きした後に元の活用形に戻したいの回答が参考にならないでしょうか。
すなわちfeatureの中の原形を採ればよいかと思います。
参考：MeCab: Yet Another Part-of-Speech and Morphological Analyzer

投稿2021/12/13 09:23

8524ba23

総合スコア38352

abba2310

2021/12/13 09:43

そちらの質問の方も閲覧させて頂いたのですが、どこに手を加えたら良いのかが分かりませんでした。手探りですが教えて頂いたurl等を見ながら少しコードを変えてみたのですがエラーが出てしまいました。変えてみたコードの方も掲載しておくので、もし添削等可能であればよろしくお願い致します。

8524ba23

2021/12/13 11:07

とりあえずcategoryという引数を追加したことで発生したエラーのようなので、元に戻して「★変更点」という修正のみにしてみてください。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問