Python 範囲指定及び値の取り出し

#実現したい事
sample.txtから条件に合う特定の値を出力したいです。
(結果1~10までの内容が記入されています。)
条件は
『SQL order by Elapsed time』の結果範囲で、"module:"を含む場合は、その範囲内で記載のあるsql文を一行で抽出したいと思っています。

#txtから抽出したい値
①　select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order# (1行で)

② select /*+ rule */ bucket_cnt, row_cnt, cache_cnt, null_cnt, timestamp#, sample_
size, minimum, maximum, distcnt, lowval, hival, density, col#, spare1, spare2, a
vgcln, minimum_enc, maximum_enc from hist_head$ where obj#=:1 and intcol#=:2(1行で)

#sample.txt中身　※#結果1~4は実際のテキストには記載はありません。

SQL order by Elapsed time　#結果1
-------------------------
100  100  100
module:
select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order#

SQL order by psychical time #結果2
-------------------------
300  300  300
module:
select p_obj#, nvlp_obj#=obj#(+) order by order#

SQL order by Elapsed time  #結果3
-------------------------
200  200  200
module:
select /*+ rule */ bucket_cnt, row_cnt, cache_cnt, null_cnt, timestamp#, sample_
size, minimum, maximum, distcnt, lowval, hival, density, col#, spare1, spare2, a
vgcln, minimum_enc, maximum_enc from hist_head$ where obj#=:1 and intcol#=:2

SQL order by Elapsed time  #結果4
-------------------------
Elapsed:
200  200  200
select ringo ringo ringo 
mikan mikan mikan mikan

~~結果5,6,7と続く(上記以外のパターンの情報もあり)

#試した事

色々考えて行いましたが全く上手くいきません。。
本当にお手上げ状態です。。。。
条件に当てはまる最初の1行しか抽出できません。。
ファイル内全体で条件に当てはまる物をすべて抽出したいのですが。。
(※他にもたくさん試しましたが以下のコードが一番実現したかった事に近かったです。
他に試した内容が必要な場合はコメントください。)

import re

filepath = 'C:\Users\Desktop\新しいフォルダー\sample.txt'

def extract_text_in_file(filepath, pattern_prev, pattern_next):
    extracted_text_array = []
    with open(filepath, "r", encoding="utf-8") as f:
        is_extracting = False
        for line in f:
            line = line.rstrip()
            if not is_extracting:
                if re.match(pattern_prev, line):
                    is_extracting = True
                continue
            if re.match(pattern_next, line):
                break
            extracted_text_array.append(line.rstrip())

    return extracted_text_array

pattern_prev = r'Module:'
pattern_next = r'^$'
extracted_text_array = extract_text_in_file(filepath, pattern_prev, pattern_next)
# for extracted_text in extracted_text_array:
#     print(extracted_text)
print(' '.join(extracted_text_array))

結果
select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order#

抽出方法にお詳しい方、実現する為にはどんなコードを書けば条件に一致するすべての値を取得できるでしょうか？
(※本当に初心者です。。googleでもずっと調べていますが解決方法がわかりません。
アイデアやヒントでも構いませんのでコメントいただけるとありがたいです。。)

can110

2020/07/18 18:15 編集

結果２を除外しているルールはどのようなものでしょうか？また結果３において「200 200 200」を除外しているルールはどのようなものでしょうか？

polpop

2020/07/18 18:41 編集

can110さんご質問ありがとうございます。 sampleファイルは練習のため単純なものにしていますが、実際は以下のようなカラムが文頭に存在するためとなります。 Elapsed per Exec(s) %total --------- ------------- ------------------- 200 　　　200 　　　　　200 module: select ~~~~~~~~~~~ from ~~ where 「200 200 200」はそれぞれのカラムに対しての値となります。そのため、取り出したい値はそれ以下のsqlのみとなります。最終的には、以下の200 の値もそれぞれのカラムごとに取得したいと考えております。

can110

2020/07/18 18:42

繰り返しになり恐縮ですが ■質問１：結果２を除外しているルールはどのようなものでしょうか？結果２の「select p_obj#, nvlp_obj#=obj#(+) order by order#」も抽出されるべきと思うのですが。 ■質問２：結果３において「200 200 200」を除外しているルールはどのようなものでしょうか？結果３において、module:の次の行に「200 200 200」が存在し、その次の行に「select ～」が存在しますが、txtから抽出したい値の②において「200 200 200」が含まれていません。この「200 200 200」を除外するルールを明確に示してほしいということです。

polpop

2020/07/18 18:56 編集

can110　夜分遅くにも関わらずありがとうございます。以下回答となります。 ■質問1 結果2を除外している理由は”SQL order by psychical time”の結果であるためです。抽出したいのは”SQL order by Elapsed time”の物ので尚且つmoduleを含む物だけの為となります。。 ■質問2 結果3の「200 200 200」もheader部分の上記で上げたカラムのそれぞれの値を示しているためとなります。 Elapsed per Exec(s) %total --------- ------------- -------------------

can110

2020/07/18 18:56

たずねているのは理由ではなく抽出するためのルール、仕様です。コンピュータは「結果2を除外している理由は”SQL order by psychical time”の結果である」などといったテキストに書かれた内容、意味を理解できません。そのため、テキストに含まれる文字やその出現位置などのみから抽出するためのルールを決める必要があります。このルールが明確でないと、問題を解決することは不可能です。

polpop

2020/07/18 19:29 編集

私がイメージしていたルールは以下になります。 1.SQL order by Elapsed timeの結果範囲を抽出(sample.txtの結果1と結果3部分) 2 1で抽出した範囲で"module"の文字列が存在する場合は、module以下のSQL文を抽出 >>テキストに含まれる文字やその出現位置などのみから抽出するためのルールを決める必要があります →"SQL order by Elapsed time"と"module"がこの文字列に該当すると考えておりましたが十分ではないという事でしょうか。。。?

can110

2020/07/18 19:33

1.結果の範囲、開始と終了位置、とくに終了位置がどのようなルールで決まるかが不明確だと思います。 2.抽出したい「SQL文」範囲を特定するルールが不明確だと思います。単純にmodule以下だと「200 200 200」も含まれてしまうことならないでしょうか。

polpop

2020/07/18 19:39 編集

can110さん申し訳ございません。結果3の「200 200 200」の位置ですが、私の記載ミスでした。。。修正しました。混乱させてしまい申し訳ございませんでした。

polpop

2020/07/18 19:49 編集

1.結果の範囲、開始と終了位置、とくに終了位置がどのようなルールで決まるかが不明確だと思います。 →実装はできていませんが、結果間の改行を終了位置にできないかと考えておりました。。

can110

2020/07/18 20:12 編集

結果間に必ず改行が１行分入っているのが保証されていればそれでよいかと思われます。できれば修正依頼欄に書かれたルールを整理して質問本文に記載ください。そのさい、テキストファイルの内容を何も知らない人間に処理させるためのマニュアルだと仮定して記載してみてください。この「マニュアル」ができて初めてコンピュータにも同じことをさせることができます。

行動規範の内容に同意します

回答2件

とりあえず挙げられた要件を満たすであろう、できるだけシンプルなルールを考えてコード化しました。
参考まで。

Python
1# ファイルから読込済みのテストデータ
2s = """SQL order by Elapsed time　#結果1
3-------------------------
4100  100  100
5module:
6select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order#
7
8SQL order by psychical time #結果2
9-------------------------
10300  300  300
11module:
12select p_obj#, nvlp_obj#=obj#(+) order by order#
13
14SQL order by Elapsed time  #結果3
15-------------------------
16200  200  200
17module:
18select /*+ rule */ bucket_cnt, row_cnt, cache_cnt, null_cnt, timestamp#, sample_
19size, minimum, maximum, distcnt, lowval, hival, density, col#, spare1, spare2, a
20vgcln, minimum_enc, maximum_enc from hist_head$ where obj#=:1 and intcol#=:2
21
22SQL order by Elapsed time  #結果4
23-------------------------
24Elapsed:
25200  200  200
26select ringo ringo ringo 
27mikan mikan mikan mikan"""
28
29for result in s.split('\n\n'): # 空行で「結果」ごとに分割
30    if result.startswith('SQL order by Elapsed time'): # 「結果」がこの文字列で始まるもののみ
31        module = result.split('module:') # 「module:」で前後を切り分ける。
32        if len(module) >= 2:
33            sql = module[1] # 後ろが「SQL文」
34            sql = module[1].replace('\n', '') # 複数行の「SQL文」を１行にまとめる
35            print(sql)

投稿2020/07/19 06:09

can110

総合スコア38262

ベストアンサー

要件が複雑なのでクラスを使います:

python
1import re
2
3class Scanner:
4    def __init__(self, pattern_prev, pattern_next):
5        self.pattern_elapsed = re.compile(r"SQL\sorder\sby\sElapsed\stime")
6        self.pattern_prev = re.compile(pattern_prev)
7        self.pattern_next = re.compile(pattern_next)
8        self.extracted_text_array = []
9        self.is_elapsed = False
10        self.is_extracting = False
11        self.sql = []
12
13    def scan(self, line):
14        """
15        状態によって行う処理を切り替えて実行します
16        """
17        line = line.rstrip()
18        if not self.is_elapsed:
19            self.search_elapsed(line)
20            return
21        if not self.is_extracting:
22            self.search_prev(line)
23            return
24        if self.pattern_next.match(line):
25            self.emit_sql()
26            return
27        self.sql.append(line.rstrip())
28
29    def search_elapsed(self, line):
30        """
31        Elapsed stime の行が見つかるまでひたすら読み飛ばします
32        Elapsed stime の行が見つかった場合、読み飛ばしをやめるために状態を変更します
33        """
34        if self.pattern_elapsed.match(line):
35            self.is_elapsed = True
36
37    def search_prev(self, line):
38        """
39        pattern_prev の行が見つかるまでひたすら読み飛ばします
40        pattern_prev の行が見つかった場合、読み飛ばしをやめるために状態を変更します
41        """
42        if self.pattern_prev.match(line):
43            self.is_extracting = True
44
45    def emit_sql(self):
46        """
47        仮の list に読み貯めた複数行の SQL 文を 1 行文字列に変換して
48        結果の list に追加し、仮の list をクリアします
49        再び Elapsed stime の行が見つかるまでひたすら読み飛ばすために状態をもとに戻します
50        """
51        self.is_elapsed = False
52        self.is_extracting = False
53        self.extracted_text_array.append(' '.join(self.sql))
54        self.sql = []
55
56
57def extract_text_in_file(filepath, pattern_prev, pattern_next):
58    scanner = Scanner(pattern_prev, pattern_next)
59    with open(filepath, "r", encoding="utf-8") as f:
60        for line in f:
61            scanner.scan(line)
62
63    return scanner.extracted_text_array
64
65filepath = 'C:\Users\Desktop\新しいフォルダー\sample.txt'
66
67pattern_prev = r'module:'
68pattern_next = r'^$'
69extracted_text_array = extract_text_in_file(filepath, pattern_prev, pattern_next)
70for extracted_text in extracted_text_array:
71    print(extracted_text)

※ sample.txt で module: の文字列が小文字だったので、コードでも module: を小文字にしました

実行結果:

console
1$ python test.py
2select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order#
3select /*+ rule */ bucket_cnt, row_cnt, cache_cnt, null_cnt, timestamp#, sample_ size, minimum, maximum, distcnt, lowval, hival, density, col#, spare1, spare2, a vgcln, minimum_enc, maximum_enc from hist_head$ where obj#=:1 and intcol#=:2

ポイントは、pattern_next にマッチしたとき break で処理を終わらせずに、
is_extracting を False にして抽出モードをオフにして、
continue で再びループの初めに戻り、繰り返しを続けることです

投稿2020/07/18 17:45

編集2020/07/19 06:00

y_shinoda

総合スコア3272

polpop

2020/07/18 19:34 編集

y_shinodaさん遅い時間にも関わらずご回答いただき本当にありがとうございます。ご教示いただいたコードを確認させていただきました。しかしこれでは、"SQL order by Elapsed time"の結果範囲のmoduleを含むsqlだけではなく、 "SQL order by psychical time"の結果範囲のmoduleを含む部分のsqlも取得してしまいます。。。 ※sample.txtの中で出力したいsqlに該当するのは、結果1と結果3の部分となります。 "SQL order by Elapsed time"の結果の中でmoduleを含むのみのsqlを取得する方法はあるのでしょうか？

y_shinoda

2020/07/19 05:31

こちらに返答遅くなりましたが、回答を修正しました

polpop

2020/07/19 05:39 編集

y_shinodaさんご回答いただきありがとうございます。完璧な回答を誠にありがとうございます！！(す、すごい。。。。) まだ頂いたコードの理解が追い付いていない部分もありますが、出力は私がイメージしていた物です! 頂いたコードを自分で分析して内容を理解しようと思います。本当にありがとうございました。

y_shinoda

2020/07/19 06:01

理解がすすみやすいよう、コードに docstring を足しておきました

polpop

2020/07/19 09:14 編集

y_shinodaさん至れり尽くせり本当にありがとうございます。もう一つだけ教えて頂きたいのですが、仮に以下の様に一つの結果範囲内に2つのSQLが存在する場合も取得する事は可能でしょうか。。？最後に私自身勉強の為、大変恐れ入りますがご回答いただけると幸いです。よろしくお願い致します --------------------------------------------------------------- SQL order by Elapsed time　#結果1 ------------------------- 100 100 100 module: select owner#,name,namespace,remoteowner,linkname,p_timestamp,p_obj#, nvlp_obj#=obj#(+) order by order# 999 99 99 module: select ownerasdjd from dhdada　＃ここも出力したい SQL order by psychical time #結果2 ------------------------- 300 300 300 module: select p_obj#, nvlp_obj#=obj#(+) order by order#

y_shinoda

2020/07/19 09:21

コードを変更する必要があります今、pattern_next を見つけたらを見つけたら self.is_extracting = False してますけど、それはやめて、 "SQL order by psychical time" が見つかったら self.is_extracting = False にするようにすればいけるような気がします (やってみないとわかりませんが)

polpop

2020/07/19 09:32 編集

y_shinodaさんご回答いただきありがとうございます。頂いたヒントを元に自分で改修してみます。 pythonを始めて1か月程度ですが学習がもっと楽しくなりました！本当に感謝致します！この度はありがとうございました。

行動規範の内容に同意します

あなたの回答