質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

2737閲覧

pythonでnltkを用いて形態素解析

kohekoh

総合スコア140

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2017/07/27 12:56

nltkを用いて形態素解析をしたいです

以下のようなコードを用いています
ストップワードの除去をコメントアウトのところで行っていますが
文章量が多いので省きました

python

1for a in doc: 2 count += 1 3 #print count, len(doc) 4 # ストップワード除去 5 tag = pos_tag(word_tokenize(a)) 6 for u in range(len(tag)): 7 try: 8 if ("NN" in tag[u][1]) or ("NNS" in tag[u][1]) or ("JJ" in tag[u][1]): 9 ans.append(tag[u][0]) 10 #print(ans[1]) 11 except: 12 print(tag[u]) 13 if len(ans) == 0: 14 VOC.append([]) 15 else: 16 VOC.append(list(set(ans))) 17 del ans 18 ans = []

私は、名詞、形容詞のみをとってくるようにしているつもりです

しかし、結果を見ると、
「My」が含まれています(頭文字が大文字のみ)
これは自分のコードがおかしいのか
そもそもこういう仕様のどっちなのでしょうか

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

例えば、固有名詞の一部とか。

Python

1from nltk import pos_tag, word_tokenize 2pos_tag(word_tokenize("I open the My Documents folder."))
[('I', 'PRP'), ('open', 'VBP'), ('the', 'DT'), ('My', 'NNP'), ('Documents', 'NNPS'), ('folder', 'NN'), ('.', '.')]

それはそうと、その現象が起きている文を抜き出して再現テストしてみればいいだけの話なのに、なんでそうしないんですか?
単にタグ付けに失敗しただけのケースも多々あると思いますよ。

投稿2017/07/27 14:25

編集2017/07/27 14:28
quickquip

総合スコア11038

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

kohekoh

2017/07/27 14:36

たしかにそうですね 頭が回っていませんでした
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問