初歩的な質問で恐縮です.
テキストファイルの中から文章がある部分を抽出したいと考えています.
追加の条件として,改行の入ったものもまとめてとってきたいのですが,どうしても改行された行が無視されてしまします.
解決策をご教示いただけますと幸いです.宜しくお願いします.
該当のソースコード
python
1#!/usr/bin/python 2# -*- coding: utf-8 -*- 3import re 4import pyautogui as pg 5import requests as rq 6import json as js 7import glob 8import os 9from datetime import datetime as dt 10 11#ファイルを開く 12#年月日を抽出して曜日を削除 13for line in open("test.txt", encoding="utf-8"): 14 ma = re.search("202[0-9].[0-9]{1,2}.[0-9]{1,2}", line) 15 if ma: 16 tdt = dt.strptime(ma.group(0), '%Y.%m.%d') 17 tstr = tdt.strftime('%Y-%m-%d') 18 #print(tstr) 19 20#時間,ユーザー名,メッセージを抽出 21for line2 in open("test.txt", encoding="utf-8"): 22 mb = re.search("[0-9][0-9]:[0-9][0-9]", line2) 23 if mb: 24 list = line2.split() 25 time = list[0] 26 hms = time + ":00" 27 28 name = list[1] 29 message = list[2] 30 31 #該当箇所 32 print(message)
txt
12020.08.13 木曜日 223:58 ポプ子 えいえい!怒った? 323:59 ピピ美 怒ってないよ. 42020.08.14 金曜日 501:00 天の声 何気ないマンボが 6サンバ師匠をきずつけた 701:30 ポプ子 エサヒィ~スープゥー 8ドゥラァァァ~イ!!! 902:00 ピピ美 しょーがねーだろ赤ちゃんなんだから
実際の出力
えいえい!怒った? 怒ってないよ. 何気ないマンボが エサヒィ~スープゥー しょーがねーだろ赤ちゃんなんだから
理想の出力結果
えいえい!怒った? 怒ってないよ. 何気ないマンボがサンバ師匠を傷つけた エサヒィ~スープゥードゥラァァァ~イ!!! しょーがねーだろ赤ちゃんなんだから
補足情報(FW/ツールのバージョンなど)
MacOS10.15.4, Python3.7.3, Atom
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2020/08/18 04:31