Python re.sub()の正規表現

Question

Python3でre.sub()を使った正規表現による置換に関して質問です。

例えば`a = 'aaa, bbb[12, 13, 14]. ccc.'`といった文字列の角かっこに囲まれた数字を`'[12] [13] [14]'`のようにそれぞれを角かっこで囲うように変換したいです。

---
追記
すみません。例が不適切でした。
今回の質問は論文の引用表記を置換したいというものでした。
http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0030232

---

問題は単純にカンマを角かっこに置換するだけではないという点です。
文章中に含まれている他のカンマは置き換えたくないです。

つまり、第一引数は以下のようになるかと思います。
`re.sub('[(\d+, )+(\d+)]', '', a)`

この条件で合致したときだけ', 'を'] ['に変換したいのですが、後方参照をどのように利用すればいいのかわかりません。
`re.sub('[(\d+, )+(\d+)]', r'[\1] [\2]', a)`としたところ`'[13, ] [15]'`となってしまいました。

アドバイスをいただけたら幸いです。

*追記
正規表現を使わない方法については以下のような方法で解決できました。
引数はa.strip()です。
```
def get_refer(words):
    start = 0
    dic = []
    for tmp in words:
        if re.match('[\d+]', tmp):
            dic.append(tmp)
            continue
        if re.match('[\d+(-|–)\d+]', tmp):
            dic.append(tmp)
            continue
        if re.match('[\d', tmp):
            start = 1
            num = tmp.strip('[').strip(',')
            fin = '['+num+']'
            # print(fin)
            dic.append(fin)
            continue
        # if re.match('(\d+-)?\d+]', tmp):
        if re.match('.*\d+]', tmp):
            start = 0
            num = tmp.strip(']')
            fin = '['+num+']'
            # print(fin)
            dic.append(fin)
            continue
        if start == 1:
            tmp = tmp.strip(',')
            fin = '['+tmp+']'
            # print(fin)
            dic.append(fin)
        else:
            dic.append(tmp)
    return dic
```

Accepted Answer

ちょっと冗長ですが僕ならこんな感じですかね。
正規表現で[12, 13, 14]を抜き出してreplaceかけるリストを作ります。
その後に、元の文献にreplaceをかけます。（多分正規表現でヒットする物しかかからないはず。）

```python
import re
def f(match):
    return (match.group(), match.group().replace(', ', '] ['))
l = [f(i) for i in re.finditer('[\d+, [\d, ]+]', a)]
for i in l:
    a = a.replace(*i)
```

ちなみに、[10-14]みたいな記法もあるので、そちらも対応するなら、もう一回同様の操作を行います。

```python
def f2(match):
    return (match.group(),
            '[' + '] ['.join(str(k) for k in range(*(int(j) + i for i,
                                                     j in enumerate(re.findall('\d+', match.group()))))) + ']'
            )
l2 = [f2(i) for i in re.finditer('[\d+–\d+]', a)]
for i in l2:
    a = a.replace(*i)
```

f2がわかりづらいので、内包表記を使わないならこんな感じです。

```python
def f2(match):
    org = match.group()
    # matchオブジェクトに最小,最大の順に二つの文献番号が入っていると決め打ち
    pos = list()  # 最小と最大の二つの数値を入れるリストを用意
    for i, j in enumerate(re.findall('\d+', match.group())):  # 数値を抽出
        pos.append(int(j) + i)  # 最大は1足しておく
    ref_seq = list()
    for k in range(*pos):  # 最小から最大の文献番号まで回す
        ref_seq.append(str(k))
    sub = '[' + '] ['.join(ref_seq) + ']'  # かっこ区切りに文字列生成
    return (org, sub)
```

Answer

フォーマットを仮定して正規表現でごり押してみます。

先に数字を抜き出して、文字列に挿入しています。

```python
import re
a = 'aaa, bbb[12, 13, 14]. ccc.'
nums = re.findall('[\d][\d]*', a)
h, e = re.split('[[\d\D]*]', a)
s = '{0}{1}{2}'.format(h, ' '.join(map('[{0}]'.format, nums)), e)
```

Answer

ちょっと対症療法的すぎるかも知れませんけど、別発想で考えてみました。 

```python
a  = "[12, 34, 56]"

# 数字に続くコンマを置換 
a1 = re.sub('(?<=\d),', ']', a)

# スペースの後に［が存在しないなら補う 
a2 = re.sub(' (?![)' , '[', a1)
```

追記 
質問文の補足説明を見て、もう一度考えてみました。 
下記#1では、"数字または角開き括弧に続かない数字"の前に角開き括弧を置きます。
下記#2では、"数字に続くカンマ"を角閉じ括弧に置換します。
  
```python
import re
for a in ["[12, 34, 56]", "[12,34, 56]", "[7]", "a = 'aaa, bbb[12, 13, 14]. ccc.'"]:
  a1=re.sub('(?<![[\d])(?=\d+)', '[', a)  #1 
  a2=re.sub('(?<=\d),'         , ']', a1) #2
  print(a)
  print(a1)
  print(a2)
  print('')
```

Answer

正規表現を使わなくてもよいのなら、こんな感じでしょうか。
```Python
import json

a = '[12, 13, 14]'
dst_str = ''
for elem in json.loads(a):
    dst_str += '[' + str(elem) + '] '

print(dst_str)
```

---
読みづらいですが、こういうのもありですね。
上記に比べ、最後に無駄な空白がはいらない点が優れています。
```Python
import json

a = '[12, 13, 14]'
dst_str =  ' '.join('[' + str(e) + ']' for e in json.loads(a))
print(dst_str)
```

---
良く考えたらリストに変換する必要もないか。
```Python
a = '[12, 13, 14]'
a = a.replace(', ', '] [')
print(a)
```

関連した質問