正規表現の「()」および「?:」の効力について

Question

pythonの自然言語処理にて、正規表現の記述方法に困っております。

#試したこと
'[[Category:イギリス|*]]'という文字列から、'イギリス'だけを抽出しようとしています。

```python
import re

text = '[[Category:イギリス|*]]'

pattern1 = r'.*[Category:.*?'
pattern2 = r'.*[Category:(.*?)'
pattern3 = r'.*[Category:(.*?)(?:\|.*)'

result1 = re.findall(pattern1, text, re.MULTILINE)
print(result1)
result2 = re.findall(pattern2, text, re.MULTILINE)
print(result2)
result3 = re.findall(pattern3, text, re.MULTILINE)
print(result3)
```
```
#結果

['[[Category:']
['']
['イギリス']

```

##質問1
「pattern1 = r'.*[Category:.*?'」と「pattern2 = r'.*[Category:(.*?)'」は、**()**を付けだだけにもかかわらず、出力結果になぜこのような差が生まれるのでしょうか。


##質問2
```(?:)```は、調べると「正規表現のキャプチャしない指定の記述である」とされています。
pattern3の例でいうと```\|```以降の文字列を検索対象とするがキャプチャしないという意味だと思うのですが、結果```'イギリス'```の文字列が抽出できた意味が理解できません。

##動作環境
APPLE MacBook-Pro python 3.8.5

Accepted Answer

#### 質問1の回答

`re.findall()` のクセのある仕様です。`re.findall()`は、
- 正規表現にキャプチャ括弧がない場合、正規表現全体にマッチした文字列のリストを返します
- 正規表現にキャプチャ括弧が1つある場合、そのキャプチャ括弧でキャプチャした文字列のリストを返します
- 正規表現にキャプチャ括弧が2つ以上ある場合、それらでキャプチャした文字列のタプルのリストを返します


#### 質問2の回答

```python
pattern2 = r'.*[Category:(.*?)'
pattern3 = r'.*[Category:(.*?)(?:\|.*)'
```

非キャプチャ括弧 `(?:)` かキャプチャ括弧かというのはこの質問中では重要ではありません。`findall()`の結果に入るかどうかという違いだけです。この場合 `(?:\|.*)`を `\|.*` にしても結果は同じです。
問題はその前の `.*?` です。**できるだけ短くマッチする**繰り返しなので、`pattern2`では後続の条件がないため常に0文字にマッチ、`pattern3`では後続の条件により `|` が出現するまでマッチします。

Answer

findallはグループ(括弧で囲まれた部分)が一つもなければ、パターン全体がマッチした文字列をリストにして返し、グループが一つだけならば、マッチした文字列のうちグループ部分をリストにして返し、グループが複数あれば各マッチごとのグループのタプルをリストにして返します。
また、*に?をつけた*?は、「0文字以上の繰り返しであり、最小の文字列」にマッチします。
つまりpattern1の末尾の.*?は空文字に対応しています。
なので、.*?をグループにされているpattern2は空文字になるわけです。
一方でpattern3は(?:\|.*)がついていますが、?:は「この括弧はグループとして記憶しない」という意味になります。なぜそんなものがいるのかというと、括弧は単にパターンを塊で区切るのにも使うからです。(|のorとか)
そして、その部分のパターンは「|と0文字以上の任意の文字」となります。
pattern1,2では.*?は「最小の長さの任意の文字列」であり、他に制限がなかったので空文字になっていましたが、pattern3では「後ろに|がある」という条件が増えているので、この場合の「最小」は「|の手前まで」になります。
だからpattern3ではグループ部分が「イギリス」にマッチするわけです。

質問1の回答

質問2の回答

関連した質問