Python re.sub()の正規表現

Python3でre.sub()を使った正規表現による置換に関して質問です。

例えばa = 'aaa, bbb[12, 13, 14]. ccc.'といった文字列の角かっこに囲まれた数字を'[12] [13] [14]'のようにそれぞれを角かっこで囲うように変換したいです。

追記
すみません。例が不適切でした。
今回の質問は論文の引用表記を置換したいというものでした。
http://journals.plos.org/plosmedicine/article?id=10.1371/journal.pmed.0030232

問題は単純にカンマを角かっこに置換するだけではないという点です。
文章中に含まれている他のカンマは置き換えたくないです。

つまり、第一引数は以下のようになるかと思います。
re.sub('[(\d+, )+(\d+)]', '', a)

この条件で合致したときだけ', 'を'] ['に変換したいのですが、後方参照をどのように利用すればいいのかわかりません。
re.sub('[(\d+, )+(\d+)]', r'[\1] [\2]', a)としたところ'[13, ] [15]'となってしまいました。

アドバイスをいただけたら幸いです。

*追記
正規表現を使わない方法については以下のような方法で解決できました。
引数はa.strip()です。

def get_refer(words):
    start = 0
    dic = []
    for tmp in words:
        if re.match('[\d+]', tmp):
            dic.append(tmp)
            continue
        if re.match('[\d+(-|–)\d+]', tmp):
            dic.append(tmp)
            continue
        if re.match('[\d', tmp):
            start = 1
            num = tmp.strip('[').strip(',')
            fin = '['+num+']'
            # print(fin)
            dic.append(fin)
            continue
        # if re.match('(\d+-)?\d+]', tmp):
        if re.match('.*\d+]', tmp):
            start = 0
            num = tmp.strip(']')
            fin = '['+num+']'
            # print(fin)
            dic.append(fin)
            continue
        if start == 1:
            tmp = tmp.strip(',')
            fin = '['+tmp+']'
            # print(fin)
            dic.append(fin)
        else:
            dic.append(tmp)
    return dic

LouiS0616

2017/12/05 07:38

正規表現を用いなくとも目的は簡単に達成可能に思います。変換が出来れば手段は問わないのか、あくまで正規表現を学習したいのか、どちらでしょうか？

roy29

2017/12/05 07:50

コメントありがとうございます。情報を追加しました。追記のような条件分岐をつけて解決はできるのですが、もっとスマートに書く方法があれなお聞きしたいです。

行動規範の内容に同意します

回答4件

ベストアンサー

ちょっと冗長ですが僕ならこんな感じですかね。
正規表現で[12, 13, 14]を抜き出してreplaceかけるリストを作ります。
その後に、元の文献にreplaceをかけます。（多分正規表現でヒットする物しかかからないはず。）

python
1import re
2def f(match):
3    return (match.group(), match.group().replace(', ', '] ['))
4l = [f(i) for i in re.finditer('[\d+, [\d, ]+]', a)]
5for i in l:
6    a = a.replace(*i)

ちなみに、[10-14]みたいな記法もあるので、そちらも対応するなら、もう一回同様の操作を行います。

python
1def f2(match):
2    return (match.group(),
3            '[' + '] ['.join(str(k) for k in range(*(int(j) + i for i,
4                                                     j in enumerate(re.findall('\d+', match.group()))))) + ']'
5            )
6l2 = [f2(i) for i in re.finditer('[\d+–\d+]', a)]
7for i in l2:
8    a = a.replace(*i)

f2がわかりづらいので、内包表記を使わないならこんな感じです。

python
1def f2(match):
2    org = match.group()
3    # matchオブジェクトに最小,最大の順に二つの文献番号が入っていると決め打ち
4    pos = list()  # 最小と最大の二つの数値を入れるリストを用意
5    for i, j in enumerate(re.findall('\d+', match.group())):  # 数値を抽出
6        pos.append(int(j) + i)  # 最大は1足しておく
7    ref_seq = list()
8    for k in range(*pos):  # 最小から最大の文献番号まで回す
9        ref_seq.append(str(k))
10    sub = '[' + '] ['.join(ref_seq) + ']'  # かっこ区切りに文字列生成
11    return (org, sub)

投稿2017/12/08 01:09

編集2017/12/08 01:16

y__sama

総合スコア83

フォーマットを仮定して正規表現でごり押してみます。

先に数字を抜き出して、文字列に挿入しています。

python
1import re
2a = 'aaa, bbb[12, 13, 14]. ccc.'
3nums = re.findall('[\d][\d]*', a)
4h, e = re.split('[[\d\D]*]', a)
5s = '{0}{1}{2}'.format(h, ' '.join(map('[{0}]'.format, nums)), e)

投稿2017/12/05 08:52

編集2017/12/05 17:29

mkgrei

総合スコア8560

ちょっと対症療法的すぎるかも知れませんけど、別発想で考えてみました。

python
1a  = "[12, 34, 56]"
2
3# 数字に続くコンマを置換 
4a1 = re.sub('(?<=\d),', ']', a)
5
6# スペースの後に［が存在しないなら補う 
7a2 = re.sub(' (?![)' , '[', a1)

追記
質問文の補足説明を見て、もう一度考えてみました。
下記#1では、"数字または角開き括弧に続かない数字"の前に角開き括弧を置きます。
下記#2では、"数字に続くカンマ"を角閉じ括弧に置換します。

python
1import re
2for a in ["[12, 34, 56]", "[12,34, 56]", "[7]", "a = 'aaa, bbb[12, 13, 14]. ccc.'"]:
3  a1=re.sub('(?<![[\d])(?=\d+)', '[', a)  #1 
4  a2=re.sub('(?<=\d),'         , ']', a1) #2
5  print(a)
6  print(a1)
7  print(a2)
8  print('')

投稿2017/12/05 08:05

編集2017/12/06 08:59

KojiDoi

総合スコア13671

roy29

2017/12/06 02:05

ありがとうございます！こちらだと、例えば"5,000"などの通常の数字も置換されてしまいますね。すみません、前提条件を網羅的に指定することができていませんでした。

KojiDoi

2017/12/06 03:45

では、[1,200, 1300, 1400] のような文字列はどう解釈するのが正しいのでしょうか？　その辺ははっきり説明していただかないと正確な回答は無理だと思います。

行動規範の内容に同意します

正規表現を使わなくてもよいのなら、こんな感じでしょうか。

Python
1import json
2
3a = '[12, 13, 14]'
4dst_str = ''
5for elem in json.loads(a):
6    dst_str += '[' + str(elem) + '] '
7
8print(dst_str)

読みづらいですが、こういうのもありですね。
上記に比べ、最後に無駄な空白がはいらない点が優れています。

Python
1import json
2
3a = '[12, 13, 14]'
4dst_str =  ' '.join('[' + str(e) + ']' for e in json.loads(a))
5print(dst_str)

良く考えたらリストに変換する必要もないか。

Python
1a = '[12, 13, 14]'
2a = a.replace(', ', '] [')
3print(a)

投稿2017/12/05 07:55

編集2017/12/05 08:03

LouiS0616

総合スコア35660

roy29

2017/12/05 08:04

ご回答ありがとうございます。すみません、説明があまりよろしくありませんでした。文を編集しましたが、実際には`a = 'aaa, bbb[12, 13, 14]. ccc.'`のような文字列が対象となります。

LouiS0616

2017/12/05 08:05

[ ] で囲まれている部分を正規表現で切り出して、回答のように置き換えればいいのでは。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Python re.sub()の正規表現

関連した質問