nltkを用いて形態素解析をしたいです
以下のようなコードを用いています
ストップワードの除去をコメントアウトのところで行っていますが
文章量が多いので省きました
python
1for a in doc: 2 count += 1 3 #print count, len(doc) 4 # ストップワード除去 5 tag = pos_tag(word_tokenize(a)) 6 for u in range(len(tag)): 7 try: 8 if ("NN" in tag[u][1]) or ("NNS" in tag[u][1]) or ("JJ" in tag[u][1]): 9 ans.append(tag[u][0]) 10 #print(ans[1]) 11 except: 12 print(tag[u]) 13 if len(ans) == 0: 14 VOC.append([]) 15 else: 16 VOC.append(list(set(ans))) 17 del ans 18 ans = []
私は、名詞、形容詞のみをとってくるようにしているつもりです
しかし、結果を見ると、
「My」が含まれています(頭文字が大文字のみ)
これは自分のコードがおかしいのか
そもそもこういう仕様のどっちなのでしょうか
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/07/27 14:36