正規表現で最長一致だけでなく，全ての一致したパターンを取りたい

前提・実現したいこと

説明が難しいので，具体例を用いて説明します．
'ABccABcccDEccccDE'
という文字列から前後パターンが前'AB'，後'DE'となっている文字列を抽出したいです．
前後パターンの間は，改行以外の文字が2~10文字とします．
この例だと，
「ABccABcccDE」，「ABcccDE」，「ABcccDEccccDE」
の３つが取りたいものです．
「ABccABcccDEccccDE」は前後パターンの間の文字数が10を超えているので取得しません．
実際に利用したいのは前後パターンの間の改行以外の文字列なので，その部分だけ抽出できれば尚良いです．

試したこと

正規表現のre.findallを用いて実装してみました．

body = 'ABccABcccDEccccDE'
front = 'AB'
rear = 'DE'
s = re.findall(front + '.{2,10}' + rear, body)
print(s)
#['ABccABcccDE']

結果は最長文字数の'ABccABcccDE'しか取得できませんでした．
色々調べた結果，最長一致を取得してしまうようなのは仕様で，先読みアサーションなるものを用いたものなどをみましたが，どのようにすればいいのかわかっていません．

補足情報（FW/ツールのバージョンなど）

Python3.9

Zuishin

2021/11/17 11:27

正規表現を使うとかえって難しくなります。AB と DE を検索してそのすべての組み合わせを自分で求めるのが一番楽だと思います。

moko_7

2021/11/17 11:32

そうなんですね．ありがとうございます．

行動規範の内容に同意します

回答3件

ベストアンサー

なんらかの正規表現を書いて、それを使ったfindallか何かを使って一発必中で
['ABccABcccDE', 'ABcccDE', 'ABcccDEccccDE']
を得るのは難しいです。なので、こういうプログラムを書くことになるのではないかと思います。

python3
1import re
2
3body = 'ABccABcccDEccccDE'
4front = 'AB'
5rear = 'DE'
6
7front_indexes = [m.span() for m in re.finditer(front, body)]  # => [(0, 2), (4, 6)]
8rear_indexes = [m.span() for m in re.finditer(rear, body)]  # => [(9, 11), (15, 17)]
9
10pairs = [
11  (front_index, rear_index) 
12    for front_index in front_indexes 
13    for rear_index in rear_indexes
14      if 2 <= rear_index[0] - front_index[1] <= 10
15]  # => [((0, 2), (9, 11)), ((4, 6), (9, 11)), ((4, 6), (15, 17))]
16
17result = [body[front_index[0]:rear_index[1]] for front_index, rear_index in pairs]
18
19print(result)  # => ['ABccABcccDE', 'ABcccDE', 'ABcccDEccccDE']
20

追記

上記に挙げたコードは、何をやっているかが分かりやすいかもしれませんが、ちょっと芸がない気がしました。それで

one-pass（所与のbodyの最初から最後まで走査するのを一回で済ませること）で、出来ないか？
無駄を省く何らかの最適化が出来ないか？

ということで以下のコードになりました。

python3
1# body = 'ABccABcccDEccccDE'
2body = 'AB123AB67890DExxDEyyyABzzDE##ABDE@@@@@DE'  # 動作確認用
3front = 'AB'
4rear = 'DE'
5
6MIN_LENGTH = 2
7MAX_LENGTH = 10
8
9result = []  # 条件に該当した文字列を格納するリスト
10front_indexes = []  # front文字列の開始位置をappendしつつ、使わなくなったものは先頭からpop(0)で削除していくFIFOリスト
11
12# body を左から読み、front および rear の出現を処理するループ
13for i in range(len(body)):
14  if body[i:i+len(front)] == front:
15    front_indexes.append(i)
16  elif body[i:i+len(rear)] == rear:
17    for i_fr in [*front_indexes]:
18      s = body[i_fr + len(front):i] # AB と DE の間にある文字列
19      if len(s) <= MAX_LENGTH:
20        if MIN_LENGTH <= len(s):
21          result.append(s)
22      else: # len(s) が MAX_LENGTH を超えたので、このsを作ったi_frをfront_indexesから削除
23        front_indexes.pop(0)
24
25
26print(result)
27print(front_indexes)
28

サンプル ???? tera: 369789 別案@replit

出力結果：

['123AB67890', '67890', '67890DExx', 'zz', 'zzDE##AB', 'DE@@@@@']

[29]

基本的な流れは以下です。

body を左端から右端まで読み、front文字列が見つかったら、front_indexesにその位置を追加します。
rear文字列が見つかったら、front_indexesに保持している、frontのインデクスを小さいほうから読み、frontとrearに挟まれている部分文字列をs として作ります。
s の長さが要件を満たしていれば、該当文字列のリストに追加します。
s の長さが要件の最大長を超えていれば、そのsを作ったfrontインデクスは、以後、使われないので、front_indexesから削除します。

上記の実行例では、front文字列の出現箇所は、0, 5, 21, 29 の4箇所ですが、プログラムの実行中、front_indexesの長さは最大2までにしかならず、プログラム終了時には最後の出現位置の 29 のみを含むリストになっています。

※いちおう良さげに動いてるっぽいですが、どこかバグっていたら、コメントからお知らせください。

投稿2021/11/17 11:41

編集2021/11/17 15:07

退会済みユーザー

総合スコア0

moko_7

2021/11/17 11:47

やはり難しそうですね．これを実装してうまくいくことも確認できました．みなさん同じ回答をしてくださっていますが，ソースコード付きですぐに解決に至ったのでこの回答をベストアンサーとさせていただきます．回答してくださった皆様ありがとうございました

退会済みユーザー

2021/11/17 15:00

コメントありがとうございます。別案を追記しました。参考にしていただければと思います〜????

行動規範の内容に同意します

同じ文字部分を繰り返し使うようなのは正規表現では無理そうな気がします。

ABとDEの位置を全部求めて、その組み合わせ（直積）を作って（例えばforの二重ループ）、
位置の差が希望通りのものだけを抽出すればいいかと思います。
あとはその位置でスライスで抜き出す。

投稿2021/11/17 11:27

otn

総合スコア84808

moko_7

2021/11/17 11:45

みたいですね．ありがとうございます．

行動規範の内容に同意します

既に解決済みですが参考までに。。。

python
1import re
2
3body = 'ABccABcccDEccccDE'
4
5greedy = re.findall(r'.?(?=(AB.{2,10}DE))', body)
6non_greedy = re.findall(r'.?(?=(AB.{2,10}?DE))', body)
7
8matched_all = list(set(greedy + non_greedy))
9
10print(matched_all)
11
12#
13# ['ABccABcccDE', 'ABcccDEccccDE', 'ABcccDE']