送信された文字コードを識別できる、最適なテスト文字列とは

HTMLのフォームから送信されるテキストの文字コードは、通常、そのHTMLの文字コードに従います。
しかしWebブラウザによっては、HTMLの文字コードとは無関係に、別の文字コードでテキストを送信してくる場合があります。

こうしたWebブラウザに対応する方法として、フォーム内にテスト用文字列を紛れ込ませ、それによって判定を行う、というものがあります。
例えば、以下のように…

html
1<form action="/edit" method="post" accept-charset="UTF-8">
2  <textarea name="comment"></textarea>
3  <input type="hidden" name="encode-hint" value="雀の往来">
4</form>

「雀の往来」は、UTF-8以外の文字コードに変換された場合、ある程度正しく判定することが可能です。
これは、「雀の往来」に使用されている文字が他の文字コードに変換された場合、重複しない文字が含まれているためで、これにより文字コードの誤認識を抑制でき、大体正確な入力文字コードの判定が可能です。

質問は、より多くの文字コードを識別可能なテスト用文字列は何なのか?
日本語圏ではUTF-8、Shift_JIS、EUC-JP、ISO-2022-JPが判定できれば十分ですが、多言語化を考える場合、日本ではマイナーな文字コードにも対応させたほうが良いのではないかと考えています。

行動規範の内容に同意します

回答1件

普通に「雀の往来」とか「美乳」で十分かと思いますが。

それではいけない理由はあるのでしょうか？また「マイナーな文字コード」というのは、具体的に何に対応したいと思っているのでしょうか？

「これで不足しているかどうか知らないけど、なんかもっといいものがあれば」というような、特に困っているわけでもなく、ざっくり抽象的な質問だと、ほとんどの人が答えずらいでしょう。

「文字コード判別のためにこのようなコードを書きました(実際にコードを提示)。これだと文字コードAとBは判別できますが、Cは判別できませんでした。システムの特性上Cも送られてくるので、どうしてもCを判別する必要があります。Cも判別できるようにするにはどうしたらいいでしょうか」などと具体的な質問をするようにしたほうがいいですよ。

投稿2015/10/11 05:08