前提・実現したいこと
mecabで形態素解析し、名詞を抽出しようとしています。
しかし、このプログラムでは単語全てを取り出してしまいます。
for文で回そうしましたが、うまく回りません。
御享受、よろしくお願いします。
data1.txtには以下の文です。
data1.txt = 私はリンゴを食べました。,私はみかんをたべました。
該当のソースコード
python
1import MeCab 2import math 3import numpy 4from scipy.spatial.distance import pdist, squareform 5sentence_data = open("data1.txt","r")#ファイルのオープン 6#行ごとに読み込んでリストデータ 7sentence_read = sentence_data.readlines() 8 9sentence_read_str = ','.join(sentence_read) 10 11sentence = sentence_read_str.split(",") 12 13num = len(sentence) 14result = [] 15print("全文書数") 16print(num) 17 18 19a = [] 20 21 22for i in range(num): 23 tagger = MeCab.Tagger() 24 result.append(tagger.parse(sentence[i])) 25 print("形態素解析した結果 result") 26 print(result) 27 28 29#文章を形態素解析して、文章事の単語をリストへ 30wordCount = {}#辞書 31allCount = {} 32sub_tfstore = {} 33tfcounter = {} 34tfstore = {} 35sub_idf = {} 36idfstore = {} 37merge_idf = {} 38tfidf = {} 39merge_tfidf = {} 40wordList = [] 41 42sum = 0 43 44for i in range(num): #resultに形態素解析の結果 45 wordList.append(result[i].split()[:-1:2])#wordListにresultを加える 46 print("単語のみ") 47 print(wordList)
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。