質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

Q&A

解決済

3回答

1563閲覧

UNICODEの未定義文字、制御文字を判別する。

junkan

総合スコア12

C#

C#はマルチパラダイムプログラミング言語の1つで、命令形・宣言型・関数型・ジェネリック型・コンポーネント指向・オブジェクティブ指向のプログラミング開発すべてに対応しています。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

0グッド

0クリップ

投稿2018/07/21 23:00

前提・実現したいこと

Char型のtoStringメソッドを使えばChar型に入れた文字コードに該当する
1文字を取得することができます。
UNICODEの未定義文字、制御文字を判別する方法があれば、
それらの処理をスキップすることができますが、どうすればいいでしょうか。

該当のソースコード

C#
Char data; //表示する文字データ
for (int nCode = 0; nCode < Char.MaxValue; nCode++)
{
data.ToString();
}

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/07/22 00:18 編集

サロゲートペアはどう考えているのです? ひょっとして、基本面に収まっている文字だけを考えている?
junkan

2018/07/22 00:26

すみません、そこまで深く考えていませんでした。1文字を画像化して比較するためにUNICODE文字を総当たりしようと考えましたが、他の文字コードも検討しようかなと思い始めています。
退会済みユーザー

退会済みユーザー

2018/07/22 01:15

深く考えての話でなないのなら、とりあえず基本面に収まっている文字だけを対象にして(それ以外は、質問者さんが言う「排除」とする)やってみたらいかがですか?
退会済みユーザー

退会済みユーザー

2018/07/22 01:17 編集

SHift_JIS とか UTF-8 とかを「他の文字コードも検討」の対象にしようと考えているようですが、それ見当違いだと思いますよ。
退会済みユーザー

退会済みユーザー

2018/07/22 01:23

質問者さんの PC の OS は Windows だと思いますが、であれば付属の IME パッドを開いて眺めてみることをお勧めします。私の言ってることが多少なりとも理解していただけるのではないかと思います。
junkan

2018/07/22 03:32

文字コードだけではなく、フォントの問題も絡んでいるとなると私の手には負えないのであきらめて別の方法を探そうかと思います。
退会済みユーザー

退会済みユーザー

2018/07/22 03:37

一度 https://teratail.com/help/question-tips を読んでください。特に「2. 質問をする前に自分で何がわからないのかを把握しましょう」のセクション。そこに書いてあるように、何がわからないかわからない人から質問を受けても、答える側も困ってしまいます。
junkan

2018/07/22 14:41

そうですね。最初は投稿タイトル通りの質問で収めようとしましたが、回答を見ているうちにタイトル以外に発生したわからないことも聞いてしまいました。今後はタイトル以外の質問が発生した場合は一度問題点を整理して別の質問として再投稿することにします。
guest

回答3

0

ベストアンサー

未定義文字というのは、
「コード体系上許容されているが、当該環境においてグリフ(字形)が設定されていない」
ということになります。

ということは、
・Unicode の当該バージョンにおいてグリフが定義されていない
・表示するフォントに当該グリフが設定されていない
のどちらもあり得ます。

前者であれば Unicode のバージョン毎にどの部分が定義されているかかは仕様書に記載がありますから、サロゲートペアであろうが何であろうが、Unicode として正規化してからなら判定可能でしょう。
しかし後者の場合は、判定する方法がありません。当該フォントにその字形が登録されているかどうかを判定する方法がないからです。
※いわゆる「豆腐」になるとは思われるのですが、字形を選択したそのレンダリング結果が豆腐であるかどうかを判定するなんて方法がない(豆腐にならず単なる空白になる可能性もある)

さらにいえば、Unicode には「私用可能な領域」として、環境で独自設定して利用できる(むろん、別環境での同一字形の保証はない)領域が存在しています。これは全体としては未定義ですが、環境によっては定義される文字になりますから、前記の豆腐とは逆の問題が発生します。

文字コードとして妥当かどうかなら判定可能でしょうが、それを「表示できるかどうか」はまったくの別問題です。

投稿2018/07/22 02:16

tacsheaven

総合スコア13703

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

junkan

2018/07/22 03:27

なるほど。フォントで定義されていない文字もあるということですね。 確かに別問題ですね。
pepperleaf

2018/07/24 13:52

象形文字とか、ルーン文字とか入ったフォントはあるのでしょうか? (定義はある)
guest

0

UNICODEには、毎年、文字が追加されていきます
あなたのコードを、毎年、それに合わせて修正すると言うなら未定義文字の判定はできるでしょうけど、
そういうことをしたいでしょうか

そもそも、なぜ未定義文字を判別したいんでしょうか

投稿2018/07/21 23:18

y_waiwai

総合スコア87774

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

junkan

2018/07/22 00:24

画像の比較に興味があったので、 1文字を画像化して比較するためにUNICODEを総当たりしようと考えました。
y_waiwai

2018/07/22 00:27

一回実行するだけでいいなら、後のメンテなんか考えなくていいから現状の配置で判定すればいいでしょうね
junkan

2018/07/22 00:52

ちなみにお聞きしたいのですが 他の文字コード(シフトJISやUTF-8等)で 未定義文字を判別できるものってご存知ですか?
y_waiwai

2018/07/22 01:17

文字コードの未定義文字を判定する方法というのはあんまし聞いたことはないですねえ。 ShiftJISなら、これから文字が追加されるってことはなさそうなんで、現状の配置で判定すればいいかと。 文字数も限定されてるから簡単な範囲チェックで判定できるでしょう。 ユニコードになるとサロゲートペアも含めると対象文字は膨大となりますんで、網羅するのはなかなか大変だと思いますが
y_waiwai

2018/07/22 01:18

ってこれって、文字コードの問題じゃなくて、フォントがどこまで定義されてるかって話じゃないんでしょうか
junkan

2018/07/22 03:30

どうもフォントの話も絡んでいるようです。 残念ですが、私の手に負えそうにないのであきらめて別の方法を探してみます。
guest

0

未定義はいつ定義されるかわかりません。
制御文字はこちらをどうぞ。
制御文字

投稿2018/07/21 23:09

Zuishin

総合スコア28660

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

junkan

2018/07/22 00:21

回答ありがとうございます。 参考にさせていただきます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問