形態素解析をして名詞のみの単語リストをつくるときのエラー

前提・実現したいこと

形態素解析をして、リストに入っている形容詞や形容動詞などを含む単語を
名詞のみの単語リストにしようとしています。

発生している問題・エラーメッセージ

最終的に得たいのは以下のリストですが、

ans = ['beef', 'chicken', 'meat', 'pork']

現状のコードだと以下のエラーが出てしまうため、

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-38-45defa4ddf68> in <module>()
      1 for word in result:
      2     s = {'NN', 'NNP', 'NNPS', 'NNS'}
----> 3     selected_wordsets.append( [(word, tag) for word, tag in result if tag in s])
      4 selected_wordsets
      5 

<ipython-input-38-45defa4ddf68> in <listcomp>(.0)
      1 for word in result:
      2     s = {'NN', 'NNP', 'NNPS', 'NNS'}
----> 3     selected_wordsets.append( [(word, tag) for word, tag in result if tag in s])
      4 selected_wordsets
      5 

ValueError: not enough values to unpack (expected 2, got 1)


 File "<ipython-input-39-74a608359c14>", line 2
    ans.append(word for word, tag in selected_wordsets])
                                                      ^
SyntaxError: invalid syntax

どのように修正すれば良いかアドバイスをいただきたいです。

該当のソースコード

python
1words = ['beef', 'boiled chicken', 'processed meat', 'pork']
2
3result = []
4selected_wordsets = []
5ans = []
6import nltk
7for word in words:
8    result.append(nltk.pos_tag(nltk.word_tokenize(word)))
9result
10
11for word in result:
12    s = {'NN', 'NNP', 'NNPS', 'NNS'}
13    selected_wordsets.append( [(word, tag) for word, tag in result if tag in s])
14selected_wordsets
15
16for word in selected_wordsets:
17    ans.append(word for word, tag in selected_wordsets])
18ans

出力

#result
[[('beef', 'NN')],
 [('boiled', 'VBN'), ('chicken', 'NN')],
 [('processed', 'VBN'), ('meat', 'NN')],
 [('pork', 'NN')]]

試したこと

形態素解析を行った後、名詞のみを取り出してリストに加えることはできています。

python
1import nltk
2result = nltk.pos_tag(nltk.word_tokenize("The beauties of nature"))
3result
4
5s = {'NN', 'NNP', 'NNPS', 'NNS'}
6selected_wordsets = [(word, tag) for word, tag in result if tag in s]
7selected_wordsets
8
9ans = [word for word, tag in selected_wordsets]
10ans

出力

[('The', 'DT'), ('beauties', 'NNS'), ('of', 'IN'), ('nature', 'NN')]

[('beauties', 'NNS'), ('nature', 'NN')]

['beauties', 'nature']

###追記
以下のコードを実行すると求めたい出力を得ることはできましたが、
少々冗長なので、どうすればより効率の良いコードになるか教えていただきたいです。

python
1words = ['beef', 'boiled chicken', 'processed meat', 'pork']
2
3result = []
4selected_wordsets = []
5ans_wordsets = []
6import nltk
7for word in words:
8    result.extend(nltk.pos_tag(nltk.word_tokenize(word)))
9    print(word)
10
11for word in result:
12    s = {'NN', 'NNP', 'NNPS', 'NNS'}
13    selected_word = [(word, tag) for word, tag in result if tag in s]
14    selected_wordsets.extend(selected_word)
15    break;
16selected_wordsets
17
18for word in selected_wordsets:
19    ans_word =[word for word, tag in selected_wordsets]
20    ans_wordsets.extend(ans_word)
21    break;
22ans_wordsets

補足情報（FW/ツールのバージョンなど）

Python 3.6

行動規範の内容に同意します

回答1件

ベストアンサー

とても初歩的な問題です。resultもansもループが回るたびに再代入してるから、最後に代入した値が残ります。

こう書いているのと同じことですから。

python
1word = 'beef'
2result = nltk.pos_tag(nltk.word_tokenize(word))
3s = {'NN', 'NNP', 'NNPS', 'NNS'}
4selected_wordsets = [(word, tag) for word, tag in result if tag in s]
5ans = [word for word, tag in selected_wordsets]
6
7word ='boiled chicken'
8result = nltk.pos_tag(nltk.word_tokenize(word))
9s = {'NN', 'NNP', 'NNPS', 'NNS'}
10selected_wordsets = [(word, tag) for word, tag in result if tag in s]
11ans = [word for word, tag in selected_wordsets]
12
13word = 'processed meat'
14result = nltk.pos_tag(nltk.word_tokenize(word))
15s = {'NN', 'NNP', 'NNPS', 'NNS'}
16selected_wordsets = [(word, tag) for word, tag in result if tag in s]
17ans = [word for word, tag in selected_wordsets]
18
19word = 'pork'
20result = nltk.pos_tag(nltk.word_tokenize(word))
21s = {'NN', 'NNP', 'NNPS', 'NNS'}
22selected_wordsets = [(word, tag) for word, tag in result if tag in s]
23ans = [word for word, tag in selected_wordsets]
24

見直しが足りなくて気づかなかったのなら、teratailで質問する前にもう少し自分で粘るようにしましょう。

素でわかっていないのなら、さすがに実力不足だと思うので、入門書的なところからやり直すしかないと思います。

投稿2018/07/11 02:05

hayataka2049

総合スコア30933

退会済みユーザー

2018/07/11 02:52 編集

エラー文の追記と現状のコードの修正をいたしました。初歩的であることは理解していますが、どうしても繰り返しとデータ構造が苦手な場合、易しい入門書だと身に付かなかったため、Pythonだとどの本が良いのでしょうか。教えていただけますとありがたいです。

hayataka2049

2018/07/11 03:19

内包のループはword（resultの子リスト）に対して回すのでは？　それと、appendよりextendの方が良いでしょう入門書は、とりあえず私は自分が何を読んだかの記憶はほとんどないし、かつて読んだ本が今通用するとも思えないので、ググってよさげなのを探してくださいあとは公式ドキュメントのチュートリアルとかでも良いでしょうし、python入門的なページもweb上にたくさんありますとりあえず公式のチュートリアル https://docs.python.jp/3/tutorial/

退会済みユーザー

2018/07/12 00:48 編集

お返事とアドバイスをいただきましてありがとうございます。追記に現状を追加させていただきました。可能でしたら、何かヒントをいただけますと幸いです。追記に明記いたしましたコードを実行すると求めたい出力を得ることはできましたが、少々冗長なので、どうすればより効率の良いコードになるか教えていただきたいです。

hayataka2049

2018/07/12 03:18

内包で回すなら下の2つのforは要らないのでは

退会済みユーザー

2018/07/12 06:51

ありがとうございました。

行動規範の内容に同意します