文字列中の漢字の割合を調べたい

###前提・実現したいこと
テキストファイルの文字列から漢字の割合を測定する

###発生している問題・エラーメッセージ

ユニコードでの漢字の抽出の仕方がわからない

###該当のソースコード

python3
1import fileinput
2import json
3import unicodedata
4
5def isKanji(char):
6    # 引数が漢字ならTrue,さもなければFalseを返す
7    if '亜' <= char <= '話':
8        return True
9    return False
10
11def Kanji(string):
12    # 引数の中の漢字を返す
13    string = unicodedata(string)
14    for i in string:
15        if isKanji(i):
16            print
17            i.encode("japanese.sjis"),
18    print("\n")
19
20
21if __name__ == '__main__':
22    for line in fileinput.input('-'):
23        lines = isKanji(line)
24        m = Kanji(lines)
25    print(m)```
26
27###試したこと
28どうしてもわかりません
29
30###補足情報(言語/FW/ツール等のバージョンなど)
31言語処理100本ノックのウィキのjsonデータを使っています

行動規範の内容に同意します

回答2件

CJKで判別すればいけそうですね。CJKはChinese/Japanese/Koreanで共通に利用している文字らしいです。

https://en.m.wikipedia.org/wiki/CJK_Unified_Ideographs

python
1>>> import unicodedata
2>>> unicodedata.name('あ')
3'HIRAGANA LETTER A'
4>>> unicodedata.name('ア')
5'KATAKANA LETTER A'
6>>> unicodedata.name('人')
7'CJK UNIFIED IDEOGRAPH-4EBA'
8>>> unicodedata.name('櫻')
9'CJK UNIFIED IDEOGRAPH-6AFB'
10>>> unicodedata.unidata_version
11'8.0.0'

投稿2017/12/20 09:30

編集2017/12/20 10:09

YouheiSakurai

総合スコア6142

YouheiSakurai

2017/12/20 09:42

>>> unicodedata.name('龥') 'CJK UNIFIED IDEOGRAPH-9FA5' >>> unicodedata.name('\u9FA5') 'CJK UNIFIED IDEOGRAPH-9FA5' >>> unicodedata.name('\u9FA6') 'CJK UNIFIED IDEOGRAPH-9FA6' >>> print('\u9FA6') 龦

YouheiSakurai

2017/12/20 09:46

>>> unicodedata.ucd_3_2_0.name('\u9FA6') Traceback (most recent call last): File "<string>", line 1, in <module> ValueError: no such name

KSwordOfHaste

2017/12/20 10:00 編集

name()の結果が漢字なら先頭が必ず'CJK 'で始まるように思えるので unicodedata.name(c)[:4] == 'CJK ' みたいな感じで良いのでしょうか・・・

YouheiSakurai

2017/12/20 10:05

それも良いと思いますが「unicodedata.name(c).startswith('CJK ') 」や「'CJK' in unicodedata.name(c).split()」といった方法もありだと思います。

KSwordOfHaste

2017/12/20 10:12

あ・・・startswithがあるのですね・・・。コメントありがとうございました。

行動規範の内容に同意します

ベストアンサー

python
1import re
2
3rkan = re.compile("[一-龥]")
4
5rtxt = "平仮名とカタカナと漢字"
6foundkanji = rkan.findall(rtxt) 
7print(rtxt)
8print(foundkanji)
9print(len(foundkanji))
10print(len(foundkanji)/len(rtxt))
11

漢字を指定する正規表現として上記の範囲指定は厳密には正しく無いらしいですね。
regexと云うモジュールを使って次のようにするのが良いらしいです。

import regex
regex.findall(r'\p{Han}',rtxt)

投稿2017/12/20 09:35

編集2017/12/20 09:45

KojiDoi

総合スコア13671

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

文字列中の漢字の割合を調べたい

関連した質問