異体字を含むテキストの長さを知りたい

遭遇した問題

まずは、こちらのコードを見てください。

python3
1text = "祇????祇"
2
3print(len(text))
4
5for t in text:
6    print(t)

結果はこうなります。

3
祇

祇

text変数に入っている最初の漢字はIVS異体字であり、次の漢字は通常の字体です。IVS異体字は1つで2文字として扱われてしまいます。encode("unicode-escape")すると、以下のように文字が分割されてしまいforが3周回っていることがわかります。

b'\u7947'
b'\U000e010f' ※異体字セレクター部分
b'\u7947'

IVS異体字を含んでいても、1文字としてlenカウントする方法が知りたいです。また、forを回した際に異体字がバラけないようにする方法が知りたいです。

よろしくお願いいたします。

行動規範の内容に同意します

回答1件

ベストアンサー

unisegを使うとできるようです。

python
1for grapheme in uniseg.graphemecluster.grapheme_clusters("\u7947\U000e010f\u7947"):
2    print(grapheme)

投稿2021/07/14 04:12

総合スコア21695

2021/07/14 04:43

すごい、こんなものがあるんですね。ありがとうございます。うまく動きました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる