Unicode 拡張書記素クラスタの正規表現パターンは何でしょうか?

Question

PCRE正規表現エンジンを採用しているPHPのドキュメントには、以下の記述が存在します。

[PHP: Unicode 文字プロパティ - Manual](http://php.net/manual/ja/regexp.reference.unicode.php)

> \X は、Unicode 拡張書記素クラスタにマッチします。 拡張書記素クラスタとは、ひとつあるいは複数の Unicode 文字の組み合わせで単一のグリフを構成するものです。 事実上、これは Unicode 版の . だと考えてかまいません。 その文字をレンダリングするために実際に何文字が使われているかは考えずに、ひとつの合成文字に対応します。

> 8.32 より古いバージョンの PCRE (これは、組み込みの PCRE ライブラリを使っている場合には PHP 5.4.14 より前のバージョンにあたります) では、 \X は (?>\PM\pM*) と等価です。 つまり、記号 (mark) プロパティの付いていない文字と、その後に続く 0 以上の 記号プロパティ付きの文字にマッチし、その並びをアトミック (atomic) な まとまりとして取り扱います。記号プロパティ付きの文字とは、アクセント記号などの 直前の文字に対して影響するようなもののことです。

この内容によると、拡張書記素クラスタにマッチするパターンの`\X`は、PCRE 8.32以降、`(?>\PM\pM*)`**ではない**パターンであると解釈できます。
つまり、改善されたものと考えられ、`(?>\PM\pM*)`は拡張書記素クラスタを表現するパターンとして、厳密には正しくないものと予想されます。

もしそうであるならば、拡張書記素クラスタと厳密に等価な、正しい正規表現パターンは何なのでしょうか?

---

JavaScriptの正規表現や、任意のUnicode 一般カテゴリプロパティを除外した拡張書記素クラスタのパターンを記述したいので、`\X`は利用できません。
なので、`\X`を利用せずに、拡張書記素クラスタの正規表現パターンを解答していただけると、ありがたいです。

Accepted Answer

unicodeの仕様でテキストを文字に分割するアルゴリズムが定まったので、これに基づくものに変更したようです。丁寧に正規表現に置き換えればいいと思いますがかなり大変そうですね。

[Grapheme Cluster Boundaries](http://unicode.org/reports/tr29/#Grapheme_Cluster_Boundaries)

unicodeには合字で表す文字がアルファベット+アクセント記号のようなパターンの他に、ハングル文字の字母を組み合わせるものや、国旗の絵文字があって、それに対応したのが主な変更です。

日本語のわかりやすい解説もあったので参考にしてください。

[hydroculのメモ:Unicodeのgrapheme cluster (書記素クラスタ)](https://hydrocul.github.io/wiki/blog/2015/1025-unicode-grapheme-clusters.html)

こんな感じにしてあとは文字クラスの部分を調べて補えばいけるとは思います。(すいません、力尽きました)

```PHP
$Control = '\x{00}-\x{09}\x{0b}-\x{0c}\x{0e}-\x{1f}\x{7f}-\x{9f}'; # 略
$ExtendOrSpacingMark = '\x{0300}-\x{036f}\x{0483}-\x{489}'; # 略
$L = '\x{1100}-\x{115f}\x{a960}-\x{a97c}';
$V = '\x{1160}-\x{11a7}\x{d7b0}-\x{d7c6}';
$T = '\x{11a8}-\x{11ff}'; # 略
$LV = '\x{ac00}\x{ac1c}'; # 略
$LVT = '\x{ac01}-\x{ac1b}'; # 略
$RegionalIndicator = '\x{1F1E6}-\x{1F1FF}';
$Other = '\x{20}-\x{7e}\x{a0}-\x{ac}\x{ae}-\x{2ff}\x{3030}-\x{3098}'; # 略

$egc_re = '(?>'
        . '\x{0d}\x{0a}?'
        . '|'
        . '\x{0a}'
        . '|'
        . "[$Control]"
        . '|'
        . "[$ExtendOrSpacingMark]+"
        . '|'
        . "[$L]+(?:[$LVT]|[$LV][$V]*[$T]*|[$V]+[$T]*|[$T]+)?[$ExtendOrSpacingMark]*"
        . '|'
        . "[$V]+[$T]*[$ExtendOrSpacingMark]*"
        . '|'
        . "[$T]+[$ExtendOrSpacingMark]*"
        . '|'
        . "[$LV][$V]*[$T]*[$ExtendOrSpacingMark]*"
        . '|'
        . "[$LVT][$T]*[$ExtendOrSpacingMark]*"
        . '|'
        . "[$RegionalIndicator]+"
        . '|'
        . "[$Other][$ExtendOrSpacingMark]*"
        . ')';

printf("%s
", $egc_re);


preg_match_all('/'.$egc_re.'/u', 'abcほげ', $matches);
var_dump($matches);
```