[Python] 関数について　※（MeCab）を利用してます


import MeCab
mecab=MeCab.Tagger()
import re

def mecabparse(sentence):
  mecab_result=mecab.parse(sentence) # 形態素解析の実行
  mecab_result=mecab_result.rstrip() # 最後の改行の削除
  out=re.split('\n',mecab_result) # 改行で分割して1形態素毎のリストにする
  return(out)

def sentence2words(sentence):
  words=[]
  morphs=mecabparse(sentence)
  for m in morphs:
    line=re.split('\t',m)
    for i in range(len(line)):
       print(i,line[i])
    line1=re.split("\t",line[0])
    
    
    words.append(line[0])
  return (" ".join(words))


test="軽かった"
sentence2words(test)

質問、修正させていただきました。

上のMecabと関数を使って、最後部分の表示を「軽い」「た」というように表示するプログラムを書けなくて困っております。

今の出力結果がこちらです。

0
11 形容詞,自立,*,*,形容詞・アウオ段,連用タ接続,軽い,カルカッ,カルカッ
20 た
31 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
40 EOS
5軽かっ た EOS

今は、関数sentence2wordsのlineごとに表示をしてみています。
具体的には、この

1 形容詞,自立,,,形容詞・アウオ段,連用タ接続,軽い,カルカッ,カルカッ

部分の8個目にある「軽い」を取り出すという処理です。
※8番目に原型が来るのは確実です。

お手数をおかけしますが、よろしくお願いします。

can110

2021/10/20 01:52

その関数を作るにあたって、何が分からないのかを具体的（～までは分かるが～が分からない）に示してください。なお、質問の仕方については以下に示されています。これを読んだうえで質問に不足などあれば質問本文を修正ください。 https://teratail.com/help/question-tips

quickquip

2021/10/20 04:30 編集

mecabの辞書が異なると書くべきコードが変わります。質問者さんの手元の環境が不明である以上「こうするとできます」という回答ができない質問です。 line=re.split('\t',m) としてますが、ここでsplitせずにmがどういう文字列が入っているのかを、もしくはsplitしたあとのlineがどういうリストかを観察してみるとよいと思います。（ここでsplitを書けるのですから、何も分からないということは決してないはずです）その上でうまくいかなかったら、どううまくいかなかったかを挙げて質問する方がよいです。

SmaSTATION

2021/10/20 08:54

お二方、ありがとうございます。もう少し粘ってみます。

行動規範の内容に同意します

回答2件

ベストアンサー

# 関数を使わなくても、mecab.parseだけで形態素解析できます
import re
import MeCab
mecab = MeCab.Tagger ()
m_data = mecab.parse("軽かった") #形態素解析
print(m_data)

line=re.split('\n',m_data) #解析結果を改行記号\nで単語単位に分割
line[0] #1行目を表示

word = line[0].split(",") #1行目をカンマ,で分割
word

word[6] #7番目の要素を出力（1番目と2番めはカンマではなく、タブで区切られているため）

line=re.split('\n',m_data) 以降は

re.split('\n',m_data)[0].split(",")[6]

とまとめることも出来ます。

投稿2021/11/06 00:40

編集2021/11/06 22:31

coffeebar

総合スコア140

printした結果から、各字句は分割された字句<タブ文字>各種データという構成であり
各種データは,区切りで構成されていることが分かるかと思います。
よってline=re.split('\t',m)の２番目の要素line[1]を,でsplitして、目的の位置の要素（文字列）を得ればよいです。
ただしEOSなど、字句によっては各種データ部分がない場合があることに注意してください。（len(line)が1の場合がある）