行末の空白文字を除いて文字列を抽出したい

正規表現を用いて行末の空白文字を除いて文字列を抽出したいです。

文字列として
『"Subject: 【件名】このような件名　がある　　』
のようなものがあると想定ください。
”ある”の後ろには全角スペースが2個、半角スペースが2個あります

このような文字列から
『【件名】このような件名　がある』
だけ抽出したいです。

import re
mailbody = "Subject: 【件名】このような 件名　がある　　  "
match_case = re.findall(r'Subject:\s*【.*】(.*)\s*$', mailbody )
print(match_case[0])

としてみたのですが、
結果は

このような 件名　がある

となり、行末のスペースを除くことが出来ません。

(.*)　が貪欲にマッチして空白までマッチしており、
\sが0回としてマッチしたような感じなのでしょうか？

上記推測が正しいとして、目的とする文字列を得るにはどのような正規表現とすれば
よいのでしょうか？

有識者の方、ご教示いただけますでしょうか

以上、よろしくお願いいたします。

行動規範の内容に同意します

回答4件

(.*)　が貪欲にマッチして空白までマッチしており、

「貪欲にマッチ」という言葉を知っているのなら、「控えめなマッチ」も知っていそうな物ですが。

Python
1match_case = re.findall(r'Subject:\s*【.*】(.*?)\s*$', mailbody )

ですね。

投稿2020/07/12 01:42

編集2020/07/12 02:21

otn

総合スコア84555

shinjukuzame

2020/07/12 02:21

ご回答ありがとうございます。 >「貪欲にマッチ」という言葉を知っているのならはい、そうなんです。「このような」の後の空白を意識して控えめなマッチを(試しもせずに)回避したのですが、 ``` match_case = re.findall(r'Subject:\s*【.*】(.*?)\s*$', s) ``` で、確かに得られる出力となりますね。ありがとうございました。

otn

2020/07/12 02:26

> 「このような」の後の空白を「控えめ」は、「マッチするなかで最短」なので、マッチしない場合は関係ないです。

shinjukuzame

2020/07/12 02:34

＞「マッチするなかで最短」なので、マッチしない場合は関係ない！なるほど、ありがとうございます！！！

行動規範の内容に同意します

re.sub で文末の空白を消してから処理してはどうでしょう？

p.py

python3
1import re
2
3s = "Subject: 【件名】このような 件名　がある　　  "
4
5s1 = re.sub(r'[　|\s]*$', '', s)
6match_case = re.findall(r'Subject:\s*【.*】(.*)$', s1)
7print(match_case[0])

実行例

投稿2020/07/12 01:54

katoy

総合スコア22324

shinjukuzame

2020/07/12 02:31

コメントありがとうございます。処理分解して単純化するアプロ―チ、参考になりました。実行結果までご丁寧に、ありがとうございました！

行動規範の内容に同意します

正規表現だけだと大変なので、以下のように処理を組み合わせる方法をお薦めします。

Python
1import re
2
3for src in [  'Subject: 【件名】このような 件名　がある　　  ',
4            'Subject: 【件名】',
5            'Subject: ']:
6
7    print(f'src[{src}]')
8
9    # 「【件名】～」を抽出
10    pos = src.find('【件名】')
11    dst = ''
12    if pos >= 0:
13        dst = src[pos:].rstrip() # 右端の空白（タブ、改行も含む）を削除
14
15    print(f'dst[{dst}]')