文字列中の漢字の割合を調べたい

Question

###前提・実現したいこと
テキストファイルの文字列から漢字の割合を測定する

###発生している問題・エラーメッセージ

```
ユニコードでの漢字の抽出の仕方がわからない
```

###該当のソースコード
```python3
import fileinput
import json
import unicodedata

def isKanji(char):
    # 引数が漢字ならTrue,さもなければFalseを返す
    if '亜' <= char <= '話':
        return True
    return False

def Kanji(string):
    # 引数の中の漢字を返す
    string = unicodedata(string)
    for i in string:
        if isKanji(i):
            print
            i.encode("japanese.sjis"),
    print("
")


if __name__ == '__main__':
    for line in fileinput.input('-'):
        lines = isKanji(line)
        m = Kanji(lines)
    print(m)```

###試したこと
どうしてもわかりません

###補足情報(言語/FW/ツール等のバージョンなど)
言語処理100本ノックのウィキのjsonデータを使っています

Accepted Answer

```python
import re

rkan = re.compile("[一-龥]")

rtxt = "平仮名とカタカナと漢字"
foundkanji = rkan.findall(rtxt) 
print(rtxt)
print(foundkanji)
print(len(foundkanji))
print(len(foundkanji)/len(rtxt))

```

漢字を指定する正規表現として上記の範囲指定は厳密には正しく無いらしいですね。 
regexと云うモジュールを使って次のようにするのが良いらしいです。  
```
import regex
regex.findall(r'\p{Han}',rtxt)
```

Answer

CJKで判別すればいけそうですね。CJKはChinese/Japanese/Koreanで共通に利用している文字らしいです。

https://en.m.wikipedia.org/wiki/CJK_Unified_Ideographs

```python
>>> import unicodedata
>>> unicodedata.name('あ')
'HIRAGANA LETTER A'
>>> unicodedata.name('ア')
'KATAKANA LETTER A'
>>> unicodedata.name('人')
'CJK UNIFIED IDEOGRAPH-4EBA'
>>> unicodedata.name('櫻')
'CJK UNIFIED IDEOGRAPH-6AFB'
>>> unicodedata.unidata_version
'8.0.0'
```

関連した質問