PHPで特殊な空白文字への対応

前提・実現したいこと

PHPで簡単なタグを抽出する仕組みを作りたいです
タグは以下の、先頭、直前、直後に関する条件だけです

・先頭が「#」または「＃」である
・直前が「行頭」または「空白文字」である
・直後が「空白文字」である

例えば「#,tomato」のように記号があっても「,tomato」というタグとして認めますし、「##」なら「#」というタグとして認めますので、簡単な正規表現でできると思ったのですが思いのほか苦戦し、質問させて頂く運びとなりました

発生している問題・エラーメッセージ

ユニコード？という特殊な空白文字に対応させることができません
というのは（????左記は\u2000が入ってます）などです

該当のソースコード

まず以下を書きまして、$str1はできますが、str2ができません
いずれからも1と2を得たいのですが、$str2からは1 #2が得られてしまうのです

PHP
1<?php
2// タグの条件
3define("PAT_TAG", "(^|[\s])([#＃]\S+)");
4
5// $str1
6$str1 = 'タグは #1 #2 です';
7echo "$str1\n";
8var_dump( extract_tag_arr($str1) ); // -> `1`と`2`が得られる
9
10// str2
11$str2 = 'タグは #1 #2 です';
12echo "$str2\n";
13var_dump( extract_tag_arr($str2) ); // -> `1 #2`が得られてしまう
14
15// $str からタグ配列を得る
16function extract_tag_arr($str){
17	// タグ抽出
18	$tag_arr = [];
19	preg_match_all('['.PAT_TAG.']' , $str, $ms);
20	foreach ( $ms[0] as $m ) {
21		$tag_arr[] = ltrim(trim($m), '#');
22 	}
23	return $tag_arr;
24}

試したこと

何が起こっているのかわからず$str2にjson_encodeをかけましたら、#1と#2の間に謎の\u2000なる文字が出現しました

PHP
1<?php
2$str2 = 'タグは #1 #2 です';
3var_dump( json_encode($str2) ); // -> `\u30bf\u30b0\u306f #1\u2000#2 \u3067\u3059`

その\u2000を検索するとユニコード？という特殊な空白文字であると知りました

ならばタグ抽出のために、特殊な空白文字を半角スペースへ変換すれば大丈夫なハズ！と考えて、先のextract_tag_arrに、その関数replace_to_spaceを加えました

PHP
1// $str からタグ配列を得る
2function extract_tag_arr($str){
3	// タグ抽出のために、特殊な空白文字を半角スペースへ変換
4	$str = replace_to_space($str);
5	// タグ抽出
6	$tag_arr = [];
7	preg_match_all('['.PAT_TAG.']' , $str, $ms);
8	foreach ( $ms[0] as $m ) {
9		$tag_arr[] = ltrim(trim($m), '#');
10 	}
11	return $tag_arr;
12}
13
14// 特殊な空白文字を半角スペースへ変換
15function replace_to_space($str){
16	$encoded = json_encode($str);
17	$table = [
18		 '\u2000'=>' ', '\u2001'=>' ', '\u2002'=>' ', '\u2003'=>' ', '\u2004'=>' ', '\u2005'=>' ', '\u2006'=>' ', '\u2007'=>' ', '\u2008'=>' ', '\u2009'=>' '
19		,'\u200A'=>' '
20		,'\u00a0'=>' '
21	];
22	$search = array_keys($table);
23	$replace = array_values($table);
24	return str_replace($search,$replace,$encoded);    
25}

これで済んだと思いましたが、以下$str3で実行すると、バックスラッシュ（円マーク）が一つ多くなります。
1\20001#2を得たいのに、1\20001#2が得られてしまうのです

PHP
1$str3 = 'タグは #1\20001#2 です';
2echo "$str3\n";
3var_dump( extract_tag_arr($str3) ); // -> `1\20001#2`が得られてしまう

それならバックスラッシュを削除すればいいのかとも思ったのですが、こう場当たり的ではいずれ別の問題が浮上しそうですし、さらに特殊文字の種類についても$tableだけで網羅できているのかどうか心配です

もし本件について知見をお持ちの方がいらっしゃいましたら是非ご回答頂けましたら幸いでございます

補足情報（FW/ツールのバージョンなど）

利用してておりますバージョンは PHP 7.4.x です

退会済みユーザー

2021/01/26 08:57

\u2000 は EN QUAD というものらしいです。Rubyでの対処法なら https://qiita.com/arika/items/1150c74d688cfa82fe12 に見つけましたが、PHPでは、、

退会済みユーザー

2021/01/26 09:09

まだ正解に至ってないですが、phpでの参考情報： https://python5.com/q/exeuorso

gravity

2021/01/26 10:01

Ruby便利ですよね。参考情報ありがとうございます。

行動規範の内容に同意します

回答1件

ベストアンサー

unicodeのwhitespaceにも正規表現で引っ掛かるようにextract_tag_arr functionの下記の箇所を

PHP
1preg_match_all('['.PAT_TAG.']' , $str, $ms);

このように変えてください。

PHP
1preg_match_all('/'.PAT_TAG.'/u' , $str, $ms);

また、WhitespaceをTrimしているところで、UnicodeのWhitespaceもTrimされるように

PHP
1$tag_arr[] = ltrim(trim($m), '#');

こんな感じでpreg_replace使って、Trimしてみてください

PHP
1$tag_arr[] = preg_replace('/\A[\p{Cc}\p{Cf}\p{Z}]++|[\p{Cc}\p{Cf}\p{Z}]++\z/u', '', $m);

投稿2021/01/26 09:19

2or3

総合スコア60

gravity

2021/01/26 10:00

ご回答ありがとうございますそちらの２行につきまして以下試させて頂きました https://3v4l.org/BX8CO （26行目を27行目へ変更し、29行目を30行目へと変更）しかし質問の問題は変化なく、$str3 についてはバックスラッシュ（円マーク）が二つ表示されました。

2or3

2021/01/26 10:35

$str3については、ただの文字列なので、 `#1\20001#2`できたものに関しては、例えば`#1####2`のようにきたものと同じ扱いなのではと思いますが、どのように動作する想定なのでしょうか。

gravity

2021/01/26 10:54

> 1\20001#2を得たいのに、1\20001#2が得られてしまうという点を問題視していますが、ところで先の２行はそれ以外の点を問題視してのご回答だったのでしょうか？質問のコードと変化がない（先頭の#は増えましたが…）のですが、何らかの不具合が解消されるとか、可読性があがるとかいった理由があるでしょうか？

2or3

2021/01/26 12:16 編集

すみません。修正は、最初の「該当のソースコード」に対してという意味でした。また、先頭の#が増えてしまうところに関しては見逃しており、↓が正しいです。 $tag_arr[] = preg_replace('/(\A[\p{Cc}\p{Cf}\p{Z}]++|[\p{Cc}\p{Cf}\p{Z}]++\z)(#|＃)/u', '', $m); 最終的にはこのようになるかと思います。 https://3v4l.org/LZjlF

gravity

2021/01/27 05:15

あっ、なるほどです。こちらこそ勝手に「試したこと」に対してだと思っていましてすみませんそちら完ぺきでした。本当にどうもありがとうございました

行動規範の内容に同意します