python csv 特定文字列のある行を削除

pythonでcsvを動かすコードを書いております。
処理内容としましては以下となります。

フォルダ内にあるcsvを結合
「果物」列で重複しているものを1つ残し、それ以外の行を削除。
csvへ出力
csv読み込み
3列目に「トマト」の文字列があれば行を削除
3列目に「きゅうり」の文字列があれば行を削除
csvへ出力

上記「5.」「6.」のところが考え通りに動きません。
どのような記述がよろしいのかご教示願います。
ちなみに「5.」のみの記述とした場合、「トマト」の文字列ありの行は削除できます。

import json,csv
import pandas as pd
import glob
import csv

csv_files = glob.glob('*.csv')
list = []

for f in csv_files:
    list.append(pd.read_csv(f))

df = pd.concat(list)

df.duplicated("果物")
dropdf=df.drop_duplicates("果物")

dropdf.to_csv("csv matome choufuku.csv",index=False)


data_rows=[]
with open('csv matome choufuku.csv','r') as f:      #csv読み込み

    reader=csv.reader(f)
    header=next(reader)
    for row in reader:
        if 'トマト' not in row[2]: #上記「5.」の処理
            data_rows.append(row)
        elif 'きゅうり' not in row[2]: #上記「6.」の処理
            data_rows.append(row)

with open('csv kansei.csv','w',newline='') as f:
    writer=csv.writer(f)
    writer.writerows(data_rows)

行動規範の内容に同意します

回答1件

ベストアンサー

条件文を

Python
1if 'トマト' not in row[2]: #上記「5.」の処理
2    data_rows.append(row)
3elif 'きゅうり' not in row[2]: #上記「6.」の処理
4    data_rows.append(row)

のように記述すると

３列目が**'きゅうり'**の場合

最初の条件文は『 'トマト'以外』なので条件に合致し、２行目で　data_rowsに行を追加される

３列目が**'トマト'**の場合

最初の条件文では条件に合致しないが、３行目の２つ目の条件が『'きゅうり'以外』なので条件に合致し、４行目で　data_rowsに行を追加される

という動作になりますので、仕様を満たしません。

仕様を満たしたいのであれば、

Python
1if row[2] not in ['トマト', 'きゅうり'] : #上記「5.」「6.」の処理
2    data_rows.append(row)

のように記述するとよいのではないでしょうか。

とここまで書きましたが、コードの前半のCSVのマージ部では **pandas **を使っているにもかかわらず、後半部はわざわざループで処理しているのは不思議でしょうがありません。
後半部も pandas をつかって

Python
1import pandas as pd
2import glob
3
4csv_files = glob.glob('*.csv')
5list = []
6
7for f in csv_files:
8    list.append(pd.read_csv(f))
9
10df = pd.concat(list)
11
12df.duplicated("果物")
13dropdf=df.drop_duplicates("果物")
14
15dropdf.to_csv("csv matome choufuku.csv",index=False)
16
17# 3列目が'トマト'か'きゅうり'の列を削除
18kansei_df = dropdf[~dropdf.iloc[:, 2].isin(['トマト' ,'きゅうり'])]
19# CSV化
20kansei_df.to_csv('kansei.csv')

では駄目なのでしょうか？

仕様を間違って理解しておりましたので、修正します。

【修正コード】

for文の場合の条件文

Python
1if ('トマト' not in row[2]) and ('きゅうり' not in row[2]):
2    data_rows.append(row)

pandasの場合

Python
1kansei_df = dropdf[~dropdf.iloc[:, 2].str.contains('トマト|きゅうり')]

となるかと思います。

【更に追記】
'いちご'をふくむ文字列以外を削除

for文の場合の条件文

Python
1if 'いちご' in row[2]:
2    data_rows.append(row)

pandasの場合

Python
1kansei_df = dropdf[dropdf.iloc[:, 2].str.contains('いちご')]

投稿2019/10/01 05:21

編集2019/10/01 07:00

magichan

総合スコア15898

daisanrock

2019/10/01 06:31 編集

ご対応ありがとうございます！申し訳ありません。個別にできたコードを無理やり？合体しているので不思議なコードになっているかもしれません。初心者なので認識できていません…。 'トマト'または'きゅうり'の文字列を含む行の削除は出来ませんでした。

magichan

2019/10/01 06:47

セルの文字が 'トマト' または 'きゅうり'なのではなく、'トマト'または'きゅうり'を『含む』文字列なのですね・・。勘違いしてましたので修正します。

daisanrock

2019/10/01 06:48

逆に例えば 'いちご' を含む文字列以外の行を削除のパターンもご教示いただけないでしょうか？

magichan

2019/10/01 07:01

回答を追記しました。たぶん動作すると思いますが、（大変申し訳ありませんが）動作確認を行っておりませんので、動かなかったら文句を言ってください

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

python csv 特定文字列のある行を削除

関連した質問