質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.37%

python csv 特定文字列のある行を削除

解決済

回答 1

投稿

  • 評価
  • クリップ 2
  • VIEW 1,587

daisanrock

score 8

pythonでcsvを動かすコードを書いております。
処理内容としましては以下となります。

  1. フォルダ内にあるcsvを結合
  2. 「果物」列で重複しているものを1つ残し、それ以外の行を削除。
  3. csvへ出力
  4. csv読み込み
  5. 3列目に「トマト」の文字列があれば行を削除
  6. 3列目に「きゅうり」の文字列があれば行を削除
  7. csvへ出力

上記「5.」「6.」のところが考え通りに動きません。
どのような記述がよろしいのかご教示願います。
ちなみに「5.」のみの記述とした場合、「トマト」の文字列ありの行は削除できます。

import json,csv
import pandas as pd
import glob
import csv

csv_files = glob.glob('*.csv')
list = []

for f in csv_files:
    list.append(pd.read_csv(f))

df = pd.concat(list)

df.duplicated("果物")
dropdf=df.drop_duplicates("果物")

dropdf.to_csv("csv matome choufuku.csv",index=False)


data_rows=[]
with open('csv matome choufuku.csv','r') as f:      #csv読み込み

    reader=csv.reader(f)
    header=next(reader)
    for row in reader:
        if 'トマト' not in row[2]: #上記「5.」の処理
            data_rows.append(row)
        elif 'きゅうり' not in row[2]: #上記「6.」の処理
            data_rows.append(row)

with open('csv kansei.csv','w',newline='') as f:
    writer=csv.writer(f)
    writer.writerows(data_rows)
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

条件文を

if 'トマト' not in row[2]: #上記「5.」の処理
    data_rows.append(row)
elif 'きゅうり' not in row[2]: #上記「6.」の処理
    data_rows.append(row)

のように記述すると

  • 3列目が'きゅうり'の場合
    最初の条件文は『 'トマト'以外』なので条件に合致し、2行目で data_rowsに行を追加される

  • 3列目が'トマト'の場合
    最初の条件文では条件に合致しないが、3行目の2つ目の条件が『'きゅうり'以外』なので条件に合致し、4行目で data_rowsに行を追加される

という動作になりますので、仕様を満たしません。

仕様を満たしたいのであれば、

if row[2] not in ['トマト', 'きゅうり'] : #上記「5.」「6.」の処理
    data_rows.append(row)

のように記述するとよいのではないでしょうか。


とここまで書きましたが、コードの前半のCSVのマージ部では pandas を使っているにもかかわらず、後半部はわざわざループで処理しているのは不思議でしょうがありません。
後半部も pandas をつかって

import pandas as pd
import glob

csv_files = glob.glob('*.csv')
list = []

for f in csv_files:
    list.append(pd.read_csv(f))

df = pd.concat(list)

df.duplicated("果物")
dropdf=df.drop_duplicates("果物")

dropdf.to_csv("csv matome choufuku.csv",index=False)

# 3列目が'トマト'か'きゅうり'の列を削除
kansei_df = dropdf[~dropdf.iloc[:, 2].isin(['トマト' ,'きゅうり'])]
# CSV化
kansei_df.to_csv('kansei.csv')


では駄目なのでしょうか?


仕様を間違って理解しておりましたので、修正します。

【修正コード】

for文の場合の条件文

if ('トマト' not in row[2]) and ('きゅうり' not in row[2]):
    data_rows.append(row)

pandasの場合

kansei_df = dropdf[~dropdf.iloc[:, 2].str.contains('トマト|きゅうり')]

となるかと思います。


【更に追記】
'いちご'をふくむ文字列以外を削除

for文の場合の条件文

if 'いちご' in row[2]:
    data_rows.append(row)

pandasの場合

kansei_df = dropdf[dropdf.iloc[:, 2].str.contains('いちご')]

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/10/01 15:26 編集

    ご対応ありがとうございます!
    申し訳ありません。個別にできたコードを無理やり?合体しているので不思議なコードになっているかもしれません。初心者なので認識できていません…。

    'トマト'または'きゅうり'の文字列を含む行の削除は出来ませんでした。

    キャンセル

  • 2019/10/01 15:47

    セルの文字が 'トマト' または 'きゅうり'なのではなく、'トマト'または'きゅうり'を『含む』文字列なのですね・・。勘違いしてましたので修正します。

    キャンセル

  • 2019/10/01 15:48

    逆に例えば 'いちご' を含む文字列以外の行を削除のパターンもご教示いただけないでしょうか?

    キャンセル

  • 2019/10/01 16:01

    回答を追記しました。
    たぶん動作すると思いますが、(大変申し訳ありませんが)動作確認を行っておりませんので、動かなかったら文句を言ってください

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.37%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る