特定のテキストファイルを正規表現を使用して置換したファイルにして書き出したい
- 評価
- クリップ 0
- VIEW 601
前提・実現したいこと
最近コロナウイルスの影響もあり、Zoomを使用したミーティングが増えています。
ミーティング後にチャットログを保存しており、悪い事ではないのですが拍手を意味する「888888」「8888」などが大量に残っております。
少し内容を追いにくいと感じたのでPythonを利用し正規表現を使用したプログラムで「8もしくは8が2回以上続いた行がある場合、その行を置換して削除する」ツールを作成しようと考えています。
しかしながら、初心者のため置換した内容を上手くファイルに書き出すことが出来ず。。
恐縮ですがご教示いただけますと幸いです。
※初めての質問となり、内容に過不足がありましたら申し訳ございません。
発生している問題・エラーメッセージ
色々ためしており、このエラーメッセージが。。というものが出せず申し訳ありません。
途中までソースコードはなんとか作成してみています。
'test2.txt'を置換後のファイルとして作成出来ればと考えているのですが、上手く出来ません。
該当のソースコード
#coding: UTF-8
import os
import re
import shutil
src = 'test.txt'
copy = 'test2.txt'
if os.path.isfile(src):
shutil.copyfile(src,copy)
f = open('test2.txt')
list = f.readlines()
for line in list:
print(re.sub('^.*(8{1,}|8{1,}).$(\r\n|\r|\n)', '', line))
line = f.readline()
f.close
試したこと
open() mode 'w'でなんとか新しいファイルに追記していけばと試行錯誤してみたのですが、上手く出力出来ていない状態です。
補足情報(FW/ツールのバージョンなど)
'test.txt'は下記のようなテキストファイルを使用してテストしていました。
======
10:00 氏名 よろしくおねがいします。 残る行
10:00 氏名 よろしくおねがいします。8 残る行
10:00 氏名 よろしくおねがいします。8 残る行
10:00 氏名 テスト8 残る行
10:00 氏名 テスト8 残る行
10:00 氏名 88
10:00 氏名 888
10:00 氏名 8888
10:00 氏名 88888
10:00 氏名 888888
10:00 氏名 88888888
10:00 氏名 8 残る行
10:00 氏名 88
10:00 氏名 888
10:00 氏名 8888
10:00 氏名 88888
10:00 氏名 888888
======
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
0
一番重要なポイントとしては、test2.txt
は「書き込みモード」でopenします。現状のコードでは「読み込みモード」ですから、期待したような内容のファイルを作ることはできません。
re.subの中身にも再考の余地がありそうです。8888の行は丸ごと廃棄でよいのか。それとも日付や名前は残しておきたいのか。「日本人の88%がコロナに感染します」みたいなコメントがあったとき、それは消すのか? その辺をどうするかで書き方が変わってきますが、質問を読む限りその辺の仕様が曖昧な気がします。
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
ファイル全体を処理するのはいろいろ方法があります。
案1:ファイルを2つオープンして、ファイル1から1行読んで、ファイル2にその1行を書く、というのを繰り返す。メモリに入りきらない巨大なファイルでもOK
案2:ファイル1を全部メモリーに読み込んで、ファイル2にまとめて書く。この場合、同じファイルでもOK
両者の折衷案:
もとのコードを活かして折衷案(まとめて読んで、1行ずつ書く)で行くとすると、
with open(src) as f:
list = f.readlines()
with open(copy,"w") as f:
for line in list:
lineの変更処理
f.write(line)
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
0
pp.py
import os
src = "test.txt"
dest = "test2.txt"
if os.path.isfile(src):
with open(src, mode="r") as f:
with open(dest, mode="w") as f2:
for line in f:
# 8もしくは8が2回以上続いた行がある場合、その行を削除する
if not("88" in line or "88" in line):
f2.write(line)
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.34%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる