前提・実現したいこと
形態素解析をした後で、特定の品詞に該当する単語のみを抽出しようとしています。
文章の中で名詞と形容詞のみを抽出して、抽出した単語をリストに格納したいです。
例
sentence = "This is a good tokenize test." ['good', 'tokenize', 'test']
発生している問題・エラーメッセージ
以下のようにアルファベットでバラバラになってしまっている状態で、困っています。
どのように修正すればいいのか、わからない状態です。
['T', 'h', 'i', ' ', 'i', ' ', 'g', 'o', 'o', 'd', ' ', 't', 'o', 'k', 'n', 'i', 'e', ' ', 't', 'e', 's', 't']
該当のソースコード
python
1import nltk 2from nltk import data, pos_tag, word_tokenize 3sentence = "This is a good tokenize test." 4nltk.download('punkt') 5nltk.download('averaged_perceptron_tagger') 6selected_pos = ['NN', 'NNP', 'NNPS', 'NNS', 'JJ', 'JJR', 'JJS'] 7candidate = [] 8 9for w in [ 10 w for w, pos in pos_tag(sentence) 11 if pos in selected_pos 12 ]: 13 candidate.append(w) 14print(candidate)
補足情報(FW/ツールのバージョンなど)
Python 3.6.0
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2018/11/19 10:04