質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

190閲覧

Listのremove()が機能せず、出力したcsvファイルが真っ白

Yukiya025

総合スコア86

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2018/09/23 05:41

編集2018/09/23 06:59

開発環境

  • Python 3.6.5
  • Atom
  • Windows7

動いていたコード (コードAとする)

このコードの詳細な挙動は以前の質問をご覧ください。
このコードは、ロシア語の文章に出てくる単語を出る順にソートし、出現回数と合わせてcsvに出力します。

python

1# -*- coding: utf-8 -*- 2# コードB 3from nltk import FreqDist 4import pymorphy2 5import csv 6import re 7 8downloadtxt = open('26and1.txt', 'r', encoding = 'utf-8-sig') 9texts = downloadtxt.read() 10texts = re.sub('[.,?!()\'—]', ' ', texts) 11texts = texts.split() 12 13analyzer = pymorphy2.MorphAnalyzer() 14 15lemma_list = [] 16for text in texts: 17 lemma = analyzer.parse(text)[0].normal_form 18 lemma_list.append(lemma) 19freqdist = FreqDist(lemma_list) 20freqdist_list = freqdist.most_common(900) 21print(freqdist_list[0]) 22with open('26and1.csv', 'w', encoding = 'utf-8-sig') as file: 23 writer = csv.writer(file, lineterminator = '\n') 24 for n in range(0, len(freqdist_list)): 25 writer.writerows([freqdist_list[n]])

動かなくなったコード (コードBとする)

コードBの挙動

  • lemma_list = lemma_list.remove('и')が認識されていない?
  • 出力したcsvファイルの中身が空っぽ。

python

1# -*- coding: utf-8 -*- 2# コードB 3from nltk import FreqDist 4import pymorphy2 5import csv 6import re 7 8downloadtxt = open('26and1.txt', 'r', encoding = 'utf-8-sig') 9texts = downloadtxt.read() 10texts = re.sub('[.,?!()\'—]', ' ', texts) 11texts = texts.split() 12 13analyzer = pymorphy2.MorphAnalyzer() 14 15lemma_list = [] 16for text in texts: 17 lemma = analyzer.parse(text)[0].normal_form 18 lemma_list.append(lemma) 19 20lemma_list = lemma_list.remove('и') # ←これを追記 21freqdist = FreqDist(lemma_list) 22freqdist_list = freqdist.most_common(900) 23# print(freqdist_list[0]) ←これを削除 24with open('26and1.csv', 'w', encoding = 'utf-8-sig') as file: 25 writer = csv.writer(file, lineterminator = '\n') 26 for n in range(0, len(freqdist_list)): 27 writer.writerows([freqdist_list[n]])

コードBで何がしたいか

  • иやмыのような高頻度で出てくるが、意味をなさない単語 (前置詞や人称代名詞) をlemma_listから削除してからcsvファイルを出力したい。

コードAでは、単語の出現回数順にソートした結果をcsvファイルに出力してくれますが、頻出単語として大勢を占めているのが人称代名詞や前置詞などであり、「知らない単語を頻出順に覚えたい」という希望にそぐいません。
そこでコードBのように、lemma_listからそのような不要な単語を削除してから頻出順にソートしてcsvファイルに出力したいのです。
よろしくお願いします<(_ _)>

できましたー!

python

1# ... 2lemma_list = [] 3for text in texts: 4 lemma = analyzer.parse(text)[0].normal_form 5 lemma_list.append(lemma) 6 7lemma_list = list(filter(lambda d: d not in ('и', 'мы', 'она', 'в', 'не', 8 'он', 'на', 'быть', 'что', 9 'весь', 'с', 'наш', 'это' 10 'как', 'они', 'к', 'а', 11 'о', 'из', 'но', 'у', 12 'за', 'же', 'от', 'я', 13 'свой', 'ты', 'то', 'по', 14 'до', 'бы', 'вы', 'уже', 15 'над', 'без', 'под', 'вот'), lemma_list)) 16# ... 17

出力結果
出力結果

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

list.remove()の返り値はNoneです。

この手のmutableなシーケンス型に対して破壊的操作を行うメソッドの多くはNoneを返します。appendやextendなどを想像してください。

再代入しなければとりあえず結果は得られます。

python

1lemma_list.remove('и')

ただし、これはリストの中で先頭に出てきた'и'を除去するだけです。

https://docs.python.jp/3/tutorial/datastructures.html#more-on-lists

ぜんぶ削除したければ、

  • 内包表記やforループで書く
  • 無限ループの中にremoveを入れて、最終的に出る例外(ValueError)を外側のtry-exceptで捕まえて抜ける
  • 何も処理しないままFreqDistにしてからキーを消す

などの方法があります。

投稿2018/09/23 05:54

編集2018/09/23 05:58
hayataka2049

総合スコア30933

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Yukiya025

2018/09/23 07:05

hayataka2049様、ありがとうございます(*≧∀≦) >リストの中で先頭に出てきた'и'を除去するだけです。 どおりで。。。最初はlemma_list.remove('и')だけで書いていたのですが、出力結果にまったく反映していないと思い、lemma_list = lemma_list.remove('и') と書いてしまってlemma_listを空っぽにしてしまったのですf^^;
guest

0

ベストアンサー

とりあえず、誤解していそうな点だけ。

lemma_list = lemma_list.remove('и')が認識されていない?

removeメソッドの返り値は常にNoneです。返り値を受け取らないようにしてください。

Python

1>>> lst = list(range(10)) 2>>> lst 3[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 4>>> 5>>> lst.remove(5) 6>>> lst 7[0, 1, 2, 3, 4, 6, 7, 8, 9] 8>>> 9>>> ret = lst.remove(3) 10>>> print(ret) 11None

また、removeメソッドは最初の要素しか取り除いてくれません。

Python

1>>> lst = [*range(10), *range(10)] 2>>> lst 3[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 4>>> 5>>> lst.remove(0) 6>>> lst 7[1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

代わりにfilterを使ってやると良いでしょう。

Python

1>>> lst = [*range(10), *range(10)] 2>>> lst 3[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 4>>> 5>>> lst = list(filter(lambda d: d not in (0, ), lst)) 6>>> lst 7[1, 2, 3, 4, 5, 6, 7, 8, 9, 1, 2, 3, 4, 5, 6, 7, 8, 9]

投稿2018/09/23 05:44

編集2018/09/23 05:48
LouiS0616

総合スコア35660

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Yukiya025

2018/09/23 05:48

LouiS0616様、ありがとうございます! > removeメソッドの返り値は常にNone ということはlemma_list = Noneと同等となり、この時点でlemma_listが空っぽになるということですか(゚Д゚)
LouiS0616

2018/09/23 05:51

そのとおりです。 CSVファイルが空になるのはおそらくその弊害です。
Yukiya025

2018/09/23 07:02

できましたー! ありがとうございました(*≧∀≦) 完成したコードと出力結果を質問本文の最後に追記したのでよければご覧ください<3 not in ('文字列') の文字列の部分には複数の文字列を指定できるのですね!
LouiS0616

2018/09/23 07:20

完成したようで何よりです。 > not in ('文字列') の文字列の部分には複数の文字列を指定できるのですね! 文字列のタプルに対して帰属判定をしています。 実は lambda d: d != 単語 でもできたのですが、他の単語が追加されることを見越して not in を使ってみました。
Yukiya025

2018/09/24 01:30

LouiS0616様、おはようございます:) > lambda d: d != 単語 でもできたのですが、他の単語が追加されることを見越して not in を使ってみました。 行間読んでくださりありがとうございます(*≧∀≦) そうなんです! 外したい要素は複数あるんです^^/ また、すでに覚えている要素も外す予定です♪ lambda式、存在は知っていたし便利そうだなという印象はあったのですが、私がプログラム書く中では使い方がわからず機会がありませんでしたf^^; lambda式使ってくださりありがとうございますヾ(*´∀`*)ノ ちなみに、lambda式を始めて知ったのはこのブログ (https://blog.finxter.com/daily-python-puzzle-set-lambda-and-filter/) からです。このサイトが提供しているパズルはお気に入りの学習方法です(*≧∀≦)
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問