質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

2983閲覧

文字列中の漢字の割合を調べたい

rhkt55

総合スコア8

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2017/12/20 08:46

###前提・実現したいこと
テキストファイルの文字列から漢字の割合を測定する

###発生している問題・エラーメッセージ

ユニコードでの漢字の抽出の仕方がわからない

###該当のソースコード

python3

1import fileinput 2import json 3import unicodedata 4 5def isKanji(char): 6 # 引数が漢字ならTrue,さもなければFalseを返す 7 if '亜' <= char <= '話': 8 return True 9 return False 10 11def Kanji(string): 12 # 引数の中の漢字を返す 13 string = unicodedata(string) 14 for i in string: 15 if isKanji(i): 16 print 17 i.encode("japanese.sjis"), 18 print("\n") 19 20 21if __name__ == '__main__': 22 for line in fileinput.input('-'): 23 lines = isKanji(line) 24 m = Kanji(lines) 25 print(m)``` 26 27###試したこと 28どうしてもわかりません 29 30###補足情報(言語/FW/ツール等のバージョンなど) 31言語処理100本ノックのウィキのjsonデータを使っています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

CJKで判別すればいけそうですね。CJKはChinese/Japanese/Koreanで共通に利用している文字らしいです。

https://en.m.wikipedia.org/wiki/CJK_Unified_Ideographs

python

1>>> import unicodedata 2>>> unicodedata.name('あ') 3'HIRAGANA LETTER A' 4>>> unicodedata.name('ア') 5'KATAKANA LETTER A' 6>>> unicodedata.name('人') 7'CJK UNIFIED IDEOGRAPH-4EBA' 8>>> unicodedata.name('櫻') 9'CJK UNIFIED IDEOGRAPH-6AFB' 10>>> unicodedata.unidata_version 11'8.0.0'

投稿2017/12/20 09:30

編集2017/12/20 10:09
YouheiSakurai

総合スコア6142

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

YouheiSakurai

2017/12/20 09:42

>>> unicodedata.name('龥') 'CJK UNIFIED IDEOGRAPH-9FA5' >>> unicodedata.name('\u9FA5') 'CJK UNIFIED IDEOGRAPH-9FA5' >>> unicodedata.name('\u9FA6') 'CJK UNIFIED IDEOGRAPH-9FA6' >>> print('\u9FA6') 龦
YouheiSakurai

2017/12/20 09:46

>>> unicodedata.ucd_3_2_0.name('\u9FA6') Traceback (most recent call last): File "<string>", line 1, in <module> ValueError: no such name
KSwordOfHaste

2017/12/20 10:00 編集

name()の結果が漢字なら先頭が必ず'CJK 'で始まるように思えるので unicodedata.name(c)[:4] == 'CJK ' みたいな感じで良いのでしょうか・・・
YouheiSakurai

2017/12/20 10:05

それも良いと思いますが「unicodedata.name(c).startswith('CJK ') 」や「'CJK' in unicodedata.name(c).split()」といった方法もありだと思います。
KSwordOfHaste

2017/12/20 10:12

あ・・・startswithがあるのですね・・・。コメントありがとうございました。
guest

0

ベストアンサー

python

1import re 2 3rkan = re.compile("[一-龥]") 4 5rtxt = "平仮名とカタカナと漢字" 6foundkanji = rkan.findall(rtxt) 7print(rtxt) 8print(foundkanji) 9print(len(foundkanji)) 10print(len(foundkanji)/len(rtxt)) 11

漢字を指定する正規表現として上記の範囲指定は厳密には正しく無いらしいですね。
regexと云うモジュールを使って次のようにするのが良いらしいです。

import regex regex.findall(r'\p{Han}',rtxt)

投稿2017/12/20 09:35

編集2017/12/20 09:45
KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問