pythonでnltkを用いて形態素解析

nltkを用いて形態素解析をしたいです

以下のようなコードを用いています
ストップワードの除去をコメントアウトのところで行っていますが
文章量が多いので省きました

python
1for a in doc:
2        count += 1
3        #print count, len(doc)
4        # ストップワード除去
5        tag = pos_tag(word_tokenize(a))
6        for u in range(len(tag)):
7            try:
8                if ("NN" in tag[u][1]) or ("NNS" in tag[u][1]) or ("JJ" in tag[u][1]):
9                    ans.append(tag[u][0])
10                    #print(ans[1])
11            except:
12                print(tag[u])
13        if len(ans) == 0:
14            VOC.append([])
15        else:
16            VOC.append(list(set(ans)))
17            del ans
18            ans = []

私は、名詞、形容詞のみをとってくるようにしているつもりです

しかし、結果を見ると、
「My」が含まれています（頭文字が大文字のみ）
これは自分のコードがおかしいのか
そもそもこういう仕様のどっちなのでしょうか

行動規範の内容に同意します

回答1件

ベストアンサー

例えば、固有名詞の一部とか。

Python
1from nltk import pos_tag, word_tokenize
2pos_tag(word_tokenize("I open the My Documents folder."))

[('I', 'PRP'),
 ('open', 'VBP'),
 ('the', 'DT'),
 ('My', 'NNP'),
 ('Documents', 'NNPS'),
 ('folder', 'NN'),
 ('.', '.')]

それはそうと、その現象が起きている文を抜き出して再現テストしてみればいいだけの話なのに、なんでそうしないんですか?
単にタグ付けに失敗しただけのケースも多々あると思いますよ。

投稿2017/07/27 14:25

編集2017/07/27 14:28

quickquip

総合スコア11038

kohekoh

2017/07/27 14:36

たしかにそうですね頭が回っていませんでした

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

pythonでnltkを用いて形態素解析

関連した質問