悩んでいること:
テキスト解析の前処理で5000行の文章を単語に区分し処理したとき、処理前のデータ形状が失われて1行になってしまいます。処理前のデータ形状を保持したままで処理できるor処理後に元のデータ形状に戻す方法で悩んでいます。
##データおよび形状:
daftaframeです。形状は(5000,2)になります。
ID word
0 元旦には、みんな私の所に来なさい
1 ピョンと飛び降りて一番最初に神さまの前に行きました
2 怒ったネコは、それからずっと、ネズミを見ると追いかける様になりました
##狙い:
5000行のテキストを必要品詞(parts)と不要ワード(stop_words)で処理し、5000行別の単語に分けたいです。
##試行コード:
python
1import pandas as pd 2import MeCab 3 4df = pd.read_csv(./...) 5mecab = MeCab.Tagger() 6mecab.parse('') 7 8all_words=[] 9 10stop_words = [ 11 '数','%','%','g','g','*','?','?','.','.','ー', 12 '*****','/','/','ml','(','(',')',')', '-','一'] 13 14parts = ['名詞','形容詞','動詞','副詞'] 15 16for word in df['word']: 17 node = mecab.parse(word).splitlines() 18 19 for i in node: 20 if i == 'EOS' or i == '': continue 21 word_tmp = i.split()[0] 22 part = i.split()[1].split(',')[0] #品詞 23 if not (part in parts) or (word_tmp in stop_words): continue 24 all_words.append(word_tmp)
2重ループになるので1次元になるは理解できるのですが解決策がわかりません。
ご教示のほどよろしくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/12/18 02:44