回答編集履歴

誤りの訂正

2021/09/25 14:02

投稿

ikadzuchi

スコア3047

answer CHANGED Viewed

@@ -9,10 +9,15 @@
 更に言えばMicrosoftが自社のフォントでだけ1文字に見える職業猫絵文字を定義していたりします。
 つまり見た目の文字数は環境依存です。
-このGraphem Clusterを求めるアルゴリズムは「[書記素分割/Unicode カテゴリー判定 | ++C++; // 未確認飛行 C ブログ](https://ufcpp.net/blog/2018/12/unicodecategory/)」によれば
+~~このGraphem Clusterを求めるアルゴリズムは「[書記素分割/Unicode カテゴリー判定 | ++C++; // 未確認飛行 C ブログ](https://ufcpp.net/blog/2018/12/unicodecategory/)」によれば~~
-> Unicode 標準としては、「あくまで参考。もっといいアルゴリズムにしてもらってもいいけど」という但し書き付きですが
+> ~~Unicode 標準としては、「あくまで参考。もっといいアルゴリズムにしてもらってもいいけど」という但し書き付きですが~~
-というレベルのもので、これで完璧というようなものではありません。
+~~というレベルのもので、これで完璧というようなものではありません。~~
+(追記)
+↑この部分、どの実装にも共通するGrapheme Clusterを求めるアルゴリズム自体(=Grapheme Clusterの定義)についてのものだと読んでいましたが、そうではなくUnicodeのドキュメントに書かれたある1つの実装のアルゴリズムに対してのものであり、私の主張とは無関係なものでした。取り消します。(コメント参照)
+根拠がやや弱くなりますが、以下の主張に変更はありません。
+(追記終)
 そもそも世界の様々な文字を考えれば、「文字数」などまともに定義できるものではありません。
 その一方でGraphem Clusterを求めるためにはUnicodeの全ての文字に対する巨大なテーブルを引いて文字ごとの属性を得る面倒な処理が必要です。Unicodeのバージョンが上がればテーブルは更新しなければなりません。