【正規表現】鍵括弧内を無視した句点で区切りたい

Question

文字列を句点（。）ごとに区切りたいです。

ただ、鍵括弧（「」、『』）で括られた中の句点にはマッチしてほしくないです。

どのような正規表現であれば、上記のようなことができるのかわかりません。

正しい正規表現を教えてください。よろしくお願いします。

サンプルは以下のとおりです。
```
分割前

あ。「いい。」いい。ううう「ううう。」ううう。ええええ。「ええええ。」ええええ。おおおおお「おおおおお」おおおおお。「かか。かかか。」かかか。「「きき。」ききき。」きき。
くく「くく『くく。』くく。」くく。けけ「けけ『けけ』けけ」けけ。ここ「ここ『ここ。ここ』」ここ。『ささ。ささ。』ささ。
```

```
分割後

あ。
「いい。」いい。
ううう「ううう。」ううう。
ええええ。
「ええええ。」ええええ。
おおおおお「おおおおお」おおおおお。
「かか。かかか。」かかか。
「「きき。」ききき。」きき。
くく「くく『くく。』くく。」くく。
けけ「けけ『けけ』けけ」けけ。
ここ「ここ『ここ。ここ』」ここ。
『ささ。ささ。』ささ。
```

Accepted Answer

正規表現で回答しましたが、例がカッコのネストがあるなど想定外だったので撤回します。

これは正規表現ではできません。構文解析の出番です。

# 追記

例文は正しく分割できます。

```Python
import re

input = 'あ。「いい。」いい。ううう「ううう。」ううう。ええええ。「ええええ。」ええええ。おおおおお「おおおおお」おおおおお。「かか。かかか。」かかか。「「きき。」ききき。」きき。'
input2 = 'くく「くく『くく。』くく。」くく。けけ「けけ『けけ』けけ」けけ。ここ「ここ『ここ。ここ』」ここ。『ささ。ささ。』ささ。'

def splitByPeriod(s):
    start = 0
    braceCount = 0
    for i in range(len(s)):
        if s[i] == '「' or s[i] == '『':
            braceCount += 1
        elif s[i] == '」' or s[i] == '』':
            braceCount -= 1
        elif s[i] == '。' and braceCount <= 0:
            yield s[start:i + 1]
            start = i + 1

for phrase in splitByPeriod(input):
    print(phrase)

for phrase in splitByPeriod(input2):
    print(phrase)
```

Answer

私も同じことを、正規表現だけで実現したいと思ったのですが、自分のスキルではどうすればいいかよくわかりませんでした。とくに、入れ子（ネスト）になった場合どうすればいいかがサッパリ思いつきません。
ただ、自分の場合、解析の対象となる文章（12万件ほどの新聞記事）を精査したところ、入れ子に対応していない正規表現でも実際にはほとんど問題が発生しませんでした。
Rでやったのですが、以下のような正規表現にマッチする文字列を順に抜き出して配列に格納するという処理を行いました。実際は、？や！も区切り文字に加えましたが。念押しですが、これでは入れ子には対応できません。

```R
((「.*?」)|([^。]))+|[^。]+
```

私の場合は、コーパスの統計的な処理をしたかっただけで、入れ子のせいできちんと抜けてないケースが多少含まれていても誤差として許容できるので、この簡単な正規表現で対処しました。タスクによってはそれで済む場合も多いと思うので、一応こちらに書き込んでおこうと思いました。

以下のブログにも書きました。
[https://blog.statsbeginner.net/entry/2022/12/17/231456](https://blog.statsbeginner.net/entry/2022/12/17/231456)

Answer

> 文字列を句点（。）ごとに区切りたいです。
> ただ、鍵括弧（「」、『』）で括られた中の句点にはマッチしてほしくないです。

「括弧で括られた文字列」と「括弧外の文字列」を別々にマッチさせた上で、句読点で分割(`split`)して下さい。
**入れ子の括弧**が存在しなければ、下記実装で事足ります。

```JavaScript
'use strict';
const sample = string => string.match(/「[^」]*」|『[^』]*』|[^「」『』]+/g).reduce((results, current) => results.concat(['「','『'].includes(current[0]) ? current : current.split(/。/)), []);
console.log(JSON.stringify(sample('あ。い「う。え」お『か。き。く』け。こ。')));  // ["あ","い","「う。え」","お","『か。き。く』","け","こ",""]
```

入れ子の括弧が存在するのなら、「括弧で括られた文字列」を繰り返し処理で複数回マッチにする必要があります。
(下記はJavaScriptですが、アルゴリズムは他言語にも応用できるでしょう)

- [match-all-character-pair.js: 検索対象文字列から、指定した「開始文字」「終了文字」の対応範囲となる文字列を検索し、配列で返します](https://gist.github.com/think49/071350bcc987d82dd836885ea6f5c0d4)

Re: dad さん

Answer

正規表現一発では難しいので、他の方法（問題を分解して少しずつ行う）を考えたほうがいいです。