開発環境

Python 3.6.5
Atom
Windows7

動いていたコード (コードAとする)

このコードの詳細な挙動は以前の質問をご覧ください。
このコードは、ロシア語の文章に出てくる単語を出る順にソートし、出現回数と合わせてcsvに出力します。

python
1# -*- coding: utf-8 -*-
2# コードB
3from nltk import FreqDist
4import pymorphy2
5import csv
6import re
7
8downloadtxt = open('26and1.txt', 'r', encoding = 'utf-8-sig')
9texts = downloadtxt.read()
10texts = re.sub('[.,?!()\'—]', ' ', texts)
11texts = texts.split()
12
13analyzer = pymorphy2.MorphAnalyzer()
14
15lemma_list = []
16for text in texts:
17    lemma = analyzer.parse(text)[0].normal_form
18    lemma_list.append(lemma)
19freqdist = FreqDist(lemma_list)
20freqdist_list = freqdist.most_common(900)
21print(freqdist_list[0])
22with open('26and1.csv', 'w', encoding = 'utf-8-sig') as file:
23    writer = csv.writer(file, lineterminator = '\n')
24    for n in range(0, len(freqdist_list)):
25        writer.writerows([freqdist_list[n]])

動かなくなったコード (コードBとする)

コードBの挙動

lemma_list = lemma_list.remove('и')が認識されていない?
出力したcsvファイルの中身が空っぽ。

python
1# -*- coding: utf-8 -*-
2# コードB
3from nltk import FreqDist
4import pymorphy2
5import csv
6import re
7
8downloadtxt = open('26and1.txt', 'r', encoding = 'utf-8-sig')
9texts = downloadtxt.read()
10texts = re.sub('[.,?!()\'—]', ' ', texts)
11texts = texts.split()
12
13analyzer = pymorphy2.MorphAnalyzer()
14
15lemma_list = []
16for text in texts:
17    lemma = analyzer.parse(text)[0].normal_form
18    lemma_list.append(lemma)
19
20lemma_list = lemma_list.remove('и') # ←これを追記
21freqdist = FreqDist(lemma_list)
22freqdist_list = freqdist.most_common(900)
23# print(freqdist_list[0]) ←これを削除
24with open('26and1.csv', 'w', encoding = 'utf-8-sig') as file:
25    writer = csv.writer(file, lineterminator = '\n')
26    for n in range(0, len(freqdist_list)):
27        writer.writerows([freqdist_list[n]])

コードBで何がしたいか

иやмыのような高頻度で出てくるが、意味をなさない単語 (前置詞や人称代名詞) をlemma_listから削除してからcsvファイルを出力したい。

コードAでは、単語の出現回数順にソートした結果をcsvファイルに出力してくれますが、頻出単語として大勢を占めているのが人称代名詞や前置詞などであり、「知らない単語を頻出順に覚えたい」という希望にそぐいません。
そこでコードBのように、lemma_listからそのような不要な単語を削除してから頻出順にソートしてcsvファイルに出力したいのです。
よろしくお願いします<(_ _)>

できましたー!

python
1# ...
2lemma_list = []
3for text in texts:
4    lemma = analyzer.parse(text)[0].normal_form
5    lemma_list.append(lemma)
6
7lemma_list = list(filter(lambda d: d not in ('и', 'мы', 'она', 'в', 'не',
8                                             'он', 'на', 'быть', 'что',
9                                             'весь', 'с', 'наш', 'это'
10                                             'как', 'они', 'к', 'а',
11                                             'о', 'из', 'но', 'у',
12                                             'за', 'же', 'от', 'я',
13                                             'свой', 'ты', 'то', 'по',
14                                             'до', 'бы', 'вы', 'уже',
15                                             'над', 'без', 'под', 'вот'), lemma_list))
16# ...
17

出力結果

行動規範の内容に同意します

回答2件

list.remove()の返り値はNoneです。

この手のmutableなシーケンス型に対して破壊的操作を行うメソッドの多くはNoneを返します。appendやextendなどを想像してください。

再代入しなければとりあえず結果は得られます。

python
1lemma_list.remove('и')

ただし、これはリストの中で先頭に出てきた'и'を除去するだけです。

https://docs.python.jp/3/tutorial/datastructures.html#more-on-lists

ぜんぶ削除したければ、

内包表記やforループで書く
無限ループの中にremoveを入れて、最終的に出る例外（ValueError）を外側のtry-exceptで捕まえて抜ける
何も処理しないままFreqDistにしてからキーを消す

などの方法があります。

投稿2018/09/23 05:54

編集2018/09/23 05:58

hayataka2049

総合スコア30933

Yukiya025

2018/09/23 07:05

hayataka2049様、ありがとうございます(*≧∀≦) >リストの中で先頭に出てきた'и'を除去するだけです。どおりで。。。最初はlemma_list.remove('и')だけで書いていたのですが、出力結果にまったく反映していないと思い、lemma_list = lemma_list.remove('и') と書いてしまってlemma_listを空っぽにしてしまったのですf^^;

行動規範の内容に同意します

ベストアンサー

とりあえず、誤解していそうな点だけ。

lemma_list = lemma_list.remove('и')が認識されていない?

removeメソッドの返り値は常にNoneです。返り値を受け取らないようにしてください。

Python
1>>> lst = list(range(10))
2>>> lst
3[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
4>>>
5>>> lst.remove(5)
6>>> lst
7[0, 1, 2, 3, 4, 6, 7, 8, 9]
8>>>
9>>> ret = lst.remove(3)
10>>> print(ret)
11None

また、removeメソッドは最初の要素しか取り除いてくれません。

Python
1>>> lst = [*range(10), *range(10)]
2>>> lst
3[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
4>>>
5>>> lst.remove(0)
6>>> lst
7[1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

代わりにfilterを使ってやると良いでしょう。

Python
1>>> lst = [*range(10), *range(10)]
2>>> lst
3[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
4>>>
5>>> lst = list(filter(lambda d: d not in (0, ), lst))
6>>> lst
7[1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9]

投稿2018/09/23 05:44

編集2018/09/23 05:48

LouiS0616

総合スコア35660

Yukiya025

2018/09/23 05:48

LouiS0616様、ありがとうございます! > removeメソッドの返り値は常にNone ということはlemma_list = Noneと同等となり、この時点でlemma_listが空っぽになるということですか(ﾟДﾟ)

LouiS0616

2018/09/23 05:51

そのとおりです。 CSVファイルが空になるのはおそらくその弊害です。

Yukiya025

2018/09/23 07:02

できましたー！ありがとうございました(*≧∀≦) 完成したコードと出力結果を質問本文の最後に追記したのでよければご覧ください<3 not in ('文字列') の文字列の部分には複数の文字列を指定できるのですね!

LouiS0616

2018/09/23 07:20

完成したようで何よりです。 > not in ('文字列') の文字列の部分には複数の文字列を指定できるのですね! 文字列のタプルに対して帰属判定をしています。実は lambda d: d != 単語でもできたのですが、他の単語が追加されることを見越して not in を使ってみました。

Yukiya025

2018/09/24 01:30

LouiS0616様、おはようございます:) > lambda d: d != 単語でもできたのですが、他の単語が追加されることを見越して not in を使ってみました。行間読んでくださりありがとうございます(*≧∀≦) そうなんです! 外したい要素は複数あるんです^^/ また、すでに覚えている要素も外す予定です♪ lambda式、存在は知っていたし便利そうだなという印象はあったのですが、私がプログラム書く中では使い方がわからず機会がありませんでしたf^^; lambda式使ってくださりありがとうございますヾ(*´∀`*)ﾉちなみに、lambda式を始めて知ったのはこのブログ (https://blog.finxter.com/daily-python-puzzle-set-lambda-and-filter/) からです。このサイトが提供しているパズルはお気に入りの学習方法です(*≧∀≦)

行動規範の内容に同意します

あなたの回答