pythonで配列からある要素を取り出したい

pythonのnltkというライブラリであるテキストを形態素解析し、登場頻度順に配列を生成しました。その結果が下記のものです。一行ごとの示す意味は左から単語、品詞、登場数となります。この中から品詞が名詞のものつまり、NNに分類されたもののみを抽出したいのですが、どのようなコードを記載すれば良いでしょうか？
色々と調べているのですが、自分には難しくどなたかご教授いただけないでしょうか。

[(('a', 'DT'), 164),
(('of', 'IN'), 63),
(('on', 'IN'), 21),
(('in', 'IN'), 18),
(('up', 'IN'), 17),
(('at', 'IN'), 15),
(('the', 'DT'), 15),
(('night', 'NN'), 13),
(('close', 'JJ'), 12),
(('water', 'NN'), 10),
(('city', 'NN'), 9),
(('body', 'NN'), 9),
(('with', 'IN'), 9),
(('group', 'NN'), 9),

行動規範の内容に同意します

回答2件

ベストアンサー

list comprehension か filter を使えば簡単です。

list comprehension
filter

lang
1words = [(('a', 'DT'), 164),
2    (('of', 'IN'), 63),
3    (('on', 'IN'), 21),
4    (('in', 'IN'), 18),
5    (('up', 'IN'), 17),
6    (('at', 'IN'), 15),
7    (('the', 'DT'), 15),
8    (('night', 'NN'), 13),
9    (('close', 'JJ'), 12),
10    (('water', 'NN'), 10),
11    (('city', 'NN'), 9),
12    (('body', 'NN'), 9),
13    (('with', 'IN'), 9),
14    (('group', 'NN'), 9)]
15
16# どちらでも可
17nouns = [word for word in words if word[0][1] == 'NN']
18nouns = list(filter(lambda word: word[0][1] == 'NN', words))
19# [(('night', 'NN'), 13),
20# (('water', 'NN'), 10),
21# (('city', 'NN'), 9),
22# (('body', 'NN'), 9),
23# (('group', 'NN'), 9)]

投稿2017/10/23 08:31

karamarimo

総合スコア2551

bullton

2017/10/23 09:00

ご回答いただきありがとうございます。無事解決することができました。

行動規範の内容に同意します

やや複雑なデータ構造になっているので、一時変数に代入して考えると分かりやすいかと思います。

Python
1ary = [(('a', 'DT'), 164),
2    (('of', 'IN'), 63),
3    (('on', 'IN'), 21),
4    (('in', 'IN'), 18),
5    (('up', 'IN'), 17),
6    (('at', 'IN'), 15),
7    (('the', 'DT'), 15),
8    (('night', 'NN'), 13),
9    (('close', 'JJ'), 12),
10    (('water', 'NN'), 10),
11    (('city', 'NN'), 9),
12    (('body', 'NN'), 9),
13    (('with', 'IN'), 9),
14    (('group', 'NN'), 9)]
15
16item = ary[0]
17print(item)  # (('a', 'DT'), 164)
18
19token = item[0] 
20print(token) # ('a', 'DT')
21cnt = item[1]
22print(cnt)   # 164
23word = token[0]
24print(word)  # a
25type = token[1]
26print(type)  # DT
27
28ret = []
29for item in ary:
30    token = item[0]
31    type = token[1]
32    if type == 'NN':
33        ret.append(item)
34
35print(ret)
36# [(('night', 'NN'), 13), (('water', 'NN'), 10), (('city', 'NN'), 9), (('body', 'NN'), 9), (('group', 'NN'), 9)]