質問編集履歴
2
一部、「異体字」を「異字体」と書いてしまっていたので、検索しやすいように修正しました。
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
異字
|
1
|
+
異体字を含むテキストの長さを知りたい
|
test
CHANGED
@@ -40,7 +40,7 @@
|
|
40
40
|
|
41
41
|
|
42
42
|
|
43
|
-
`text`変数に入っている最初の漢字は**IVS異体字**であり、次の漢字は通常の字体です。IVS異字
|
43
|
+
`text`変数に入っている最初の漢字は**IVS異体字**であり、次の漢字は通常の字体です。IVS異体字は1つで2文字として扱われてしまいます。`encode("unicode-escape")`すると、以下のように文字が分割されてしまい`for`が3周回っていることがわかります。
|
44
44
|
|
45
45
|
|
46
46
|
|
1
誤字
test
CHANGED
File without changes
|
test
CHANGED
@@ -48,7 +48,7 @@
|
|
48
48
|
|
49
49
|
b'\u7947'
|
50
50
|
|
51
|
-
b'\U000e010f' ※異字
|
51
|
+
b'\U000e010f' ※異体字セレクター部分
|
52
52
|
|
53
53
|
b'\u7947'
|
54
54
|
|