回答率: 85.29%

質問するログイン新規登録

トップ Pythonに関する質問【python】文字数カウント

編集履歴

回答編集履歴

3

誤字

2015/08/03 21:11

投稿

スコア1151

answer CHANGED Viewed

@@ -41,7 +41,7 @@
 UNICODEコードポイントの1次情報源は[こちら](http://unicode.org/charts/)です。
 ===
-質問へついての追記（コメント欄ではマークダウン記法ができないので…）。
+質問についての追記（コメント欄ではマークダウン記法ができないので…）。
 > 例に挙げてくださった，’あ’の変換は理解できるのですが，実際にテキストファイル内の文字をコードポイントへ変換する場合はどうしたらよいのでしょうか．

2

質問への回答

2015/08/03 21:10

投稿

スコア1151

answer CHANGED Viewed

@@ -38,4 +38,47 @@
 print('ひらがなの数: {}'.format(num_hiragana))
 ```
-UNICODEコードポイントの1次情報源は[こちら](http://unicode.org/charts/)です。
+UNICODEコードポイントの1次情報源は[こちら](http://unicode.org/charts/)です。
+===
+質問へついての追記（コメント欄ではマークダウン記法ができないので…）。
+> 例に挙げてくださった，’あ’の変換は理解できるのですが，実際にテキストファイル内の文字をコードポイントへ変換する場合はどうしたらよいのでしょうか．
+forとかで回せば1文字ずつ取得できますよ。
+```
+s = 'あいうえお'
+for letter in s:
+    print(letter, ord(letter))
+```
+```
+$ python a.py
+あ 12354
+い 12356
+う 12358
+え 12360
+お 12362
+```
+テキストファイルから読み込む場合は、使われるエンコーディングがプラットフォーム依存なので`encoding=`で指定しておいたほうが良いです。
+```
+with open('some_text_file', encoding='utf-8') as f:
+    for line in f:
+        for letter in line:
+            print(letter, ord(letter))
+```
+```
+$ python b.py
+今 20170
+日 26085
+は 12399
+暑 26257
+い 12356
+！ 65281
+```

1

修正

2015/08/03 21:09

投稿

スコア1151

answer CHANGED Viewed

@@ -1,4 +1,4 @@
-Python3.xの文字列はUNICODEのコードポイントの値の並び(シーケンス)ですので、判定はコードポイントの範囲内にあるか比較するだけです。
+Python3.xの文字列はUNICODEのコードポイントの値の並び(シーケンス)ですので、判定はコードポイントがどの範囲内にあるか比較するだけです。
 漢字について、中国・日本・韓国の頭文字をとって`CJK`と言います。UNICODEではCJKの漢字を統合して扱っています(unified ideographs)。もっともよく使われるものは0x4e00～0x9fffに収録されているようです。
 [http://jrgraphix.net/r/Unicode/4E00-9FFF](http://jrgraphix.net/r/Unicode/4E00-9FFF)