前提・実現したいこと
次のようになっているものを,全て分割したいです。
input
((((AAA,BBB),CCC)DDD), (EEE,FFF))
output
(AAA,BBB)
((AAA,BBB),CCC)
(((AAA,BBB),CCC),DDD)
(EEE,FFF)
((((AAA,BBB),CCC)DDD), (EEE,FFF))
試したこと
一番小さい括弧は取れました。
そのあと大きくしていく方法がわかりません。
そして,テストデータは括弧が最大4個ですが,n階層になっても大丈夫なようにしたいです。
よろしくお願いします。
該当のソースコード
python3
import re
A = "((((AAA,BBB),CCC)DDD), (EEE,FFF))"
B = re.findall("([^()]+)",A)
for i in B:
print(i)
(AAA,BBB)
(EEE,FFF)
気になる質問をクリップする
クリップした質問は、後からいつでもMYページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
回答3件
0
ベストアンサー
入力文字列を先頭から順にスキャンして:
- 開きカッコだった場合
→ スタックに位置を記憶しておく(これが文字列切り出しの開始位置になる)
- 閉じカッコだった場合
→ スタックから対応する開きカッコの位置を取り出して、そこから現在位置までの文字列を切り出す
というアプローチではどうでしょうか。
python
1s = '((((AAA,BBB),CCC),DDD), (EEE,FFF))' 2 3stack = [] 4result = [] 5for i, ch in enumerate(s): 6 if ch == '(': 7 stack.append(i) 8 elif ch == ')': 9 result.append(s[stack.pop():i + 1]) 10 11print(*result, sep='\n') 12 13# (AAA,BBB) 14# ((AAA,BBB),CCC) 15# (((AAA,BBB),CCC),DDD) 16# (EEE,FFF) 17# ((((AAA,BBB),CCC),DDD), (EEE,FFF))
投稿2019/10/24 13:31
退会済みユーザー
総合スコア0
0
再帰的にn階層たどるような場合、正規文法では表せず、文脈自由文法が要ります(チョムスキー階層より)。
適当に文法の定義っぽいものを書いて考えてみます。
node: "(" (node | symbol) "," (node | symbol) ")" symbol: "[A-F]{3}"
みるからにLL(1)の文法です。簡単そうなので再帰下降構文解析で書いてみることにします。
python
1src = "((((AAA,BBB),CCC),DDD),(EEE,FFF))" 2p = 0 3 4def node_p_(): 5 global p 6 p += 1 7 if src[p] == "(": 8 e1 = node_p_() 9 else: 10 e1 = symbol_p_() 11 p += 1 12 if src[p] == "(": 13 e2 = node_p_() 14 else: 15 e2 = symbol_p_() 16 p += 1 17 node = (e1, e2) 18 print(repr_node(node)) 19 return node 20 21def symbol_p_(): 22 global p 23 p += 3 24 return src[p-3:p] 25 26def repr_node(node): 27 r = "(" 28 if isinstance(node[0], str): 29 r += node[0] 30 else: 31 r += repr_node(node[0]) 32 r += "," 33 if isinstance(node[1], str): 34 r += node[1] 35 else: 36 r += repr_node(node[1]) 37 r += ")" 38 return r 39 40node_p_() 41""" => 42(AAA,BBB) 43((AAA,BBB),CCC) 44(((AAA,BBB),CCC),DDD) 45(EEE,FFF) 46((((AAA,BBB),CCC),DDD),(EEE,FFF)) 47"""
投稿2019/10/24 10:29
編集2019/10/24 10:41総合スコア30935
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
0
内側から順に マッチ ⇒ 置換 することで実現できました。
かなり野暮ったい方法なのであまり達成感が無いですが...
Python
1import collections 2import itertools 3import re 4 5 6src = r'((((AAA,BBB),CCC),DDD), (EEE,FFF))' 7 8dst = [] 9work_dir = collections.OrderedDict() 10 11for i in itertools.count(): 12 m = re.search(r'([^()]+)', src) 13 if not m: 14 break 15 16 s = m.group() 17 18 dst.append(s) 19 work_dir[f'${i}'] = s 20 src = src.replace(s, f'${i}') 21 22for k, v in reversed(work_dir.items()): 23 dst = [ 24 e.replace(k, v) for e in dst 25 ] 26 27print(*dst, sep='\n')
実行結果 Wandbox
(AAA,BBB) ((AAA,BBB),CCC) (((AAA,BBB),CCC),DDD) (EEE,FFF) ((((AAA,BBB),CCC),DDD), (EEE,FFF))
追記: 邪道
思い付いたので書きました。真似はしない方が良いです。
Python
1import ast 2import re 3 4 5src = r'((((AAA,BBB),CCC),DDD), (EEE,FFF))' 6src = re.sub(r'(\w+)', r'"\1"', src) 7 8work = [ast.literal_eval(src)] 9dst = [] 10 11while work: 12 tmp = work.pop() 13 dst.append(tmp) 14 15 work += [e for e in tmp if isinstance(e, tuple)] 16 17 18dst = [ 19 str(e).replace('"', '').replace("'", "") 20 for e in reversed(dst) 21] 22print(*dst, sep='\n')
実行結果 Wandbox
(AAA, BBB) ((AAA, BBB), CCC) (((AAA, BBB), CCC), DDD) (EEE, FFF) ((((AAA, BBB), CCC), DDD), (EEE, FFF))
投稿2019/10/24 09:25
編集2019/10/24 09:56総合スコア35668
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
あなたの回答
tips
太字
斜体
打ち消し線
見出し
引用テキストの挿入
コードの挿入
リンクの挿入
リストの挿入
番号リストの挿入
表の挿入
水平線の挿入
プレビュー
質問の解決につながる回答をしましょう。 サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。 また、読む側のことを考えた、分かりやすい文章を心がけましょう。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/10/27 09:36