遭遇した問題
まずは、こちらのコードを見てください。
python3
1text = "祇????祇" 2 3print(len(text)) 4 5for t in text: 6 print(t)
結果はこうなります。
3 祇 祇
text
変数に入っている最初の漢字はIVS異体字であり、次の漢字は通常の字体です。IVS異体字は1つで2文字として扱われてしまいます。encode("unicode-escape")
すると、以下のように文字が分割されてしまいfor
が3周回っていることがわかります。
b'\u7947' b'\U000e010f' ※異体字セレクター部分 b'\u7947'
私が知りたいこと
IVS異体字を含んでいても、1文字としてlen
カウントする方法が知りたいです。また、for
を回した際に異体字がバラけないようにする方法が知りたいです。
よろしくお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2021/07/14 04:43