Python 範囲指定及び値の取り出し

Question

#実現したい事
sample.txtから条件に合う特定の値を出力したいです。
(結果1~10までの内容が記入されています。)
条件は
『SQL order by Elapsed time』の結果範囲で、"module:"を含む場合は、その範囲内で記載のあるsql文を一行で抽出したいと思っています。


#txtから抽出したい値
①　select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order# (1行で)

②  select /*+ rule */ bucket_cnt, row_cnt, cache_cnt, null_cnt, timestamp#, sample_
size, minimum, maximum, distcnt, lowval, hival, density, col#, spare1, spare2, a
vgcln, minimum_enc, maximum_enc from hist_head$ where obj#=:1 and intcol#=:2(1行で)


#sample.txt中身　※#結果1~4は実際のテキストには記載はありません。
```ここに言語を入力
SQL order by Elapsed time　#結果1
-------------------------
100  100  100
module:
select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order#

SQL order by psychical time #結果2
-------------------------
300  300  300
module:
select p_obj#, nvlp_obj#=obj#(+) order by order#

SQL order by Elapsed time  #結果3
-------------------------
200  200  200
module:
select /*+ rule */ bucket_cnt, row_cnt, cache_cnt, null_cnt, timestamp#, sample_
size, minimum, maximum, distcnt, lowval, hival, density, col#, spare1, spare2, a
vgcln, minimum_enc, maximum_enc from hist_head$ where obj#=:1 and intcol#=:2

SQL order by Elapsed time  #結果4
-------------------------
Elapsed:
200  200  200
select ringo ringo ringo 
mikan mikan mikan mikan

~~結果5,6,7と続く(上記以外のパターンの情報もあり)
```

#試した事

色々考えて行いましたが全く上手くいきません。。
本当にお手上げ状態です。。。。
条件に当てはまる最初の1行しか抽出できません。。
ファイル内全体で条件に当てはまる物をすべて抽出したいのですが。。
(※他にもたくさん試しましたが以下のコードが一番実現したかった事に近かったです。
他に試した内容が必要な場合はコメントください。)

```ここに言語を入力
import re

filepath = 'C:\Users\Desktop\新しいフォルダー\sample.txt'

def extract_text_in_file(filepath, pattern_prev, pattern_next):
    extracted_text_array = []
    with open(filepath, "r", encoding="utf-8") as f:
        is_extracting = False
        for line in f:
            line = line.rstrip()
            if not is_extracting:
                if re.match(pattern_prev, line):
                    is_extracting = True
                continue
            if re.match(pattern_next, line):
                break
            extracted_text_array.append(line.rstrip())

    return extracted_text_array

pattern_prev = r'Module:'
pattern_next = r'^$'
extracted_text_array = extract_text_in_file(filepath, pattern_prev, pattern_next)
# for extracted_text in extracted_text_array:
#     print(extracted_text)
print(' '.join(extracted_text_array))
```
```ここに言語を入力
結果
select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order#
```

抽出方法にお詳しい方、実現する為にはどんなコードを書けば条件に一致するすべての値を取得できるでしょうか？
(※本当に初心者です。。googleでもずっと調べていますが解決方法がわかりません。
アイデアやヒントでも構いませんのでコメントいただけるとありがたいです。。)

Accepted Answer

要件が複雑なのでクラスを使います:

```python
import re

class Scanner:
    def __init__(self, pattern_prev, pattern_next):
        self.pattern_elapsed = re.compile(r"SQL\sorder\sby\sElapsed\stime")
        self.pattern_prev = re.compile(pattern_prev)
        self.pattern_next = re.compile(pattern_next)
        self.extracted_text_array = []
        self.is_elapsed = False
        self.is_extracting = False
        self.sql = []

    def scan(self, line):
        """
        状態によって行う処理を切り替えて実行します
        """
        line = line.rstrip()
        if not self.is_elapsed:
            self.search_elapsed(line)
            return
        if not self.is_extracting:
            self.search_prev(line)
            return
        if self.pattern_next.match(line):
            self.emit_sql()
            return
        self.sql.append(line.rstrip())

    def search_elapsed(self, line):
        """
        Elapsed stime の行が見つかるまでひたすら読み飛ばします
        Elapsed stime の行が見つかった場合、読み飛ばしをやめるために状態を変更します
        """
        if self.pattern_elapsed.match(line):
            self.is_elapsed = True

    def search_prev(self, line):
        """
        pattern_prev の行が見つかるまでひたすら読み飛ばします
        pattern_prev の行が見つかった場合、読み飛ばしをやめるために状態を変更します
        """
        if self.pattern_prev.match(line):
            self.is_extracting = True

    def emit_sql(self):
        """
        仮の list に読み貯めた複数行の SQL 文を 1 行文字列に変換して
        結果の list に追加し、仮の list をクリアします
        再び Elapsed stime の行が見つかるまでひたすら読み飛ばすために状態をもとに戻します
        """
        self.is_elapsed = False
        self.is_extracting = False
        self.extracted_text_array.append(' '.join(self.sql))
        self.sql = []


def extract_text_in_file(filepath, pattern_prev, pattern_next):
    scanner = Scanner(pattern_prev, pattern_next)
    with open(filepath, "r", encoding="utf-8") as f:
        for line in f:
            scanner.scan(line)

    return scanner.extracted_text_array

filepath = 'C:\Users\Desktop\新しいフォルダー\sample.txt'

pattern_prev = r'module:'
pattern_next = r'^$'
extracted_text_array = extract_text_in_file(filepath, pattern_prev, pattern_next)
for extracted_text in extracted_text_array:
    print(extracted_text)
```

※ `sample.txt` で `module:` の文字列が小文字だったので、コードでも `module:` を小文字にしました

実行結果:

```console
$ python test.py
select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order#
select /*+ rule */ bucket_cnt, row_cnt, cache_cnt, null_cnt, timestamp#, sample_ size, minimum, maximum, distcnt, lowval, hival, density, col#, spare1, spare2, a vgcln, minimum_enc, maximum_enc from hist_head$ where obj#=:1 and intcol#=:2
```

ポイントは、`pattern_next` にマッチしたとき `break` で処理を終わらせずに、
`is_extracting` を `False` にして抽出モードをオフにして、
`continue` で再びループの初めに戻り、繰り返しを続けることです

Answer

とりあえず挙げられた要件を満たすであろう、できるだけシンプルなルールを考えてコード化しました。
参考まで。
```Python
# ファイルから読込済みのテストデータ
s = """SQL order by Elapsed time　#結果1
-------------------------
100  100  100
module:
select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order#

SQL order by psychical time #結果2
-------------------------
300  300  300
module:
select p_obj#, nvlp_obj#=obj#(+) order by order#

SQL order by Elapsed time  #結果3
-------------------------
200  200  200
module:
select /*+ rule */ bucket_cnt, row_cnt, cache_cnt, null_cnt, timestamp#, sample_
size, minimum, maximum, distcnt, lowval, hival, density, col#, spare1, spare2, a
vgcln, minimum_enc, maximum_enc from hist_head$ where obj#=:1 and intcol#=:2

SQL order by Elapsed time  #結果4
-------------------------
Elapsed:
200  200  200
select ringo ringo ringo 
mikan mikan mikan mikan"""

for result in s.split('

'): # 空行で「結果」ごとに分割
    if result.startswith('SQL order by Elapsed time'): # 「結果」がこの文字列で始まるもののみ
        module = result.split('module:') # 「module:」で前後を切り分ける。
        if len(module) >= 2:
            sql = module[1] # 後ろが「SQL文」
            sql = module[1].replace('
', '') # 複数行の「SQL文」を１行にまとめる
            print(sql)
```

関連した質問