質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

Q&A

解決済

3回答

1090閲覧

Unicodeとutf-8とutf-16の違い

greenleave10000

総合スコア67

Unicode

Unicodeはエンコーディングの標準規格です。1つの文字コード体系で多国語の表現を可能にすることを目指して作られています。

UTF-8

UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

0グッド

0クリップ

投稿2020/10/29 02:12

コンピュータで文字を表現するには表現したい文字をすべて一つのダブりなくコンピュータが分かる2進数に対応させないといけない。そして、Unicodeは表現したい文字の集合ってだけだからそのUnicodeに含まれる文字すべてをダブりのない2進数(これをcode pointと言う)に対応させないといけない。どういう対応規則を使うかが、utf-8,utf-16の違いである。と言うところまでは一応理解しました。
ところが、Unicode code pointsなるものが存在することを知りました。Unicodeは文字の集合なわけですからUnicode code pointsとは何なのかわからなくなりました。

Unicodeにcode pointsがあるならutf-8もutf-16もいらない気がするのですがどういうことなのでしょうか?
Unicode code pointsとutf-8のcode points、utf-16のcode pointsは何が違うのでしょうか?
結局、Unicodeは「文字の集合」なのか「文字の集合+対応規則」なのかどちらなのでしょうか?
code pointsがあるということは(それらは対応規則によって生成されているわけだから)対応規則があるということでUnicodeは「文字の集合+対応規則」ということになるのでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

maisumakun

2020/10/29 02:38

「対応規則」とはどういう意味でしょうか?
greenleave10000

2020/10/29 03:13

utf-8とかutf-16が文字集合の中の文字と二進数の列を対応付ける一種の写像に見えたので。
greenleave10000

2020/10/29 05:53

拝見させていただきました。たしかにUnicode code pointsは”an integer value”と書かれていました。バイト列は二進数ですから、UTF-32と同じ数を使ってるだけで、ただの整列番号のようなものであるということですね。UTF-32の符号化バイト列もUnicode code pointsも十六進数表記だったのも勘違いの一つの原因だったようです。
guest

回答3

0

Unicodeにcode pointsがあるならutf-8もutf-16もいらない気がするのですがどういうことなのでしょうか?

Unicodeにコードポイントがあってもなくても、UTF-8・16・7・Punycodeなどの様々なエンコーディング(符号化方式)は必要に応じて使い分けるために複数生まれます。

Unicode code pointsとutf-8のcode points、utf-16のcode pointsは何が違うのでしょうか?

コードポイントという言葉の意味を理解されていないようです。
UnicodeコードポイントはUnicodeの各文字に割り当てられた数です。エンコーディングに依存せず一意です。
UTF-8や16にはそれぞれエンコード(符号化)されたバイト列が存在しますが、それらはコードポイントではありません。

結局、Unicodeは「文字の集合」なのか「文字の集合+対応規則」なのかどちらなのでしょうか?

code pointsがあるということは(それらは対応規則によって生成されているわけだから)対応規則があるということでUnicodeは「文字の集合+対応規則」ということになるのでしょうか?

あまりUnicodeのコードポイントを「対応規則」と考えたことはありませんでしたが確かにそうも考えられますね。そのような解釈もあってよいと思います。
ただしその対応規則は主に人間向けであってコンピュータで扱うのには向いていいません。

Unicode code pointsというのはutf-32のcode pointsと同じってことですか。

先述のとおり「UTF-32のコードポイント」は無いのでUTF-32の符号化バイト列と解釈します。
数値としては同じですが、UTF-32の符号化バイト列は32ビットなのに対し、コードポイントはビット数などは定義されていないただの「数」なのが異なります。

投稿2020/10/29 05:22

ikadzuchi

総合スコア3047

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

greenleave10000

2020/10/29 05:48

>数値としては同じですが、UTF-32の符号化バイト列は32ビットなのに対し、コードポイントはビット数などは定義されていないただの「数」なのが異なります。 なるほどそういうことでしたか。ありがとうございます。
guest

0

ベストアンサー

結局、Unicodeは「文字の集合」なのか「文字の集合+対応規則」なのかどちらなのでしょうか?

「文字の集合」ですが、文字コードというものの性質上、「何が入るかだけ決めておいて順番は定義しない」ではほぼ役に立ちません。

なので、文字集合にも番号は振られています。JIS X 0208では「区・点」のような抽象的な番号が振られていて、もちろんこれでも構わないのですが、Unicodeの場合は21ビット(元来は31ビット)の空間に直接置いています。

なお、「Unicodeの文字番号をそのまま32ビットに広げて使う」というエンコード方式もあって、「UTF-32」と呼ばれます。

投稿2020/10/29 03:26

編集2020/10/29 03:31
maisumakun

総合スコア145121

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

Unicodeは文字集合で、UTFなんちゃらはその文字集合を表現するための文字コードですね

投稿2020/10/29 02:31

y_waiwai

総合スコア87719

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

greenleave10000

2020/10/29 03:11

Unicode code pointsは文字集合を表現する文字コードではないのでしょうか?
y_waiwai

2020/10/29 03:15

違いますね。 Unicodeは1文字何バイトなんでしょうか。まずはそれを考えてみましょう
greenleave10000

2020/10/29 05:58

1文字何バイトかがutf-8やutf-16で違うんですよね。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問