トップ PHPに関する質問 phpで特定の文字列のエンコードで文字化けさせないようにしたい

編集履歴

回答編集履歴

脱字

2025/03/13 23:21

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -23,7 +23,7 @@
 mb_detect_encoding("No.川家", 'UTF-8', true) == 'UTF-8'
 mb_detect_encoding("No.川家", 'sjis-win', true) == 'sjis-win'
-の両方を試して、いずれがfalseでいずれかがならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
+の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
 追記ここまで。

コード訂正しました

2025/03/13 16:45

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -21,9 +21,9 @@
 結論は
 UTF-8としてもShiftJISとしても解釈可能なバイト列を与えた時、そのどちらが選ばれるかは**決定的**ではあるが推測や指定は難しい。
-mb_detect_encoding("No.川家", 'UTF-8')
+mb_detect_encoding("No.川家", 'UTF-8', true) == 'UTF-8'
-mb_detect_encoding("No.川家", 'sjis-win')
+mb_detect_encoding("No.川家", 'sjis-win', true) == 'sjis-win'
-の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
+の両方を試して、いずれがfalseでいずれかがならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
 追記ここまで。

訂正

2025/03/13 16:34

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -25,18 +25,22 @@
 mb_detect_encoding("No.川家", 'sjis-win')
 の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
+追記ここまで。
 ***
-追記ここまで。
-~~以下変更タイミングが同じなだけで関係なかったです。~~ Contributorも誤解した話だったようです。以下さらに追記。
 https://github.com/php/php-src/issues/16566#issuecomment-2435388893
-で議論されていましたが、今回 "№河家" という**UTF-8 が選ばれる実例**が見つかりましたので、このContributorのコメントは正しくないことになります。
-count_demerits関数の不備として指摘してもよいと思われます。
+で議論されていましたが、Not Planned で終わっています。
 再追記ここまで。
+***
+以下変更タイミングが同じなだけで関係なかったです。
 https://ja.stackoverflow.com/questions/100559/
 と同じ件のように思います。

些細

2025/03/13 16:24

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -28,7 +28,7 @@
 ***
 追記ここまで。
-~~以下変更タイミングが同じなだけで関係なかったです。~~Contributorも誤解した件だったようです。以下さらに追記。
+~~以下変更タイミングが同じなだけで関係なかったです。~~ Contributorも誤解した話だったようです。以下さらに追記。
 https://github.com/php/php-src/issues/16566#issuecomment-2435388893

追記

2025/03/13 16:23

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -28,8 +28,15 @@
 ***
 追記ここまで。
-以下変更タイミングが同じなだけで関係なかったです。
+~~以下変更タイミングが同じなだけで関係なかったです。~~Contributorも誤解した件だったようです。以下さらに追記。
+https://github.com/php/php-src/issues/16566#issuecomment-2435388893
+で議論されていましたが、今回 "№河家" という**UTF-8 が選ばれる実例**が見つかりましたので、このContributorのコメントは正しくないことになります。
+count_demerits関数の不備として指摘してもよいと思われます。
+再追記ここまで。
 https://ja.stackoverflow.com/questions/100559/
 と同じ件のように思います。

些細

2025/03/13 15:59

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -10,11 +10,11 @@
 推測だと、
-№川家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
+№川家 をUTF-8でチェックすると、末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
-邃門ｷ晏ｮｶ は末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
+邃門ｷ晏ｮｶ をShiftJISでチェックすると、末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
-№河家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能（これは№川家と同じ）
+№河家 をUTF-8でチェックすると、末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能（これは№川家と同じ）
-邃匁ｲｳ螳ｶ は末尾1バイト削っても解釈可能、2バイト削ると解釈不能、3バイト削ると解釈可能
+邃匁ｲｳ螳ｶ をShiftJISでチェックすると、末尾1バイト削っても解釈可能、2バイト削ると解釈不能、3バイト削ると解釈可能
 というあたりでdemeritsが違っているのではないかと感じました。

誤記

2025/03/13 15:57

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -14,7 +14,7 @@
 邃門ｷ晏ｮｶ は末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
 №河家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能（これは№川家と同じ）
-邃匁ｲｳ螳ｶ は末尾1バイト削っても解釈可能、2バイト削ると解釈可能、3バイト削ると解釈可能
+邃匁ｲｳ螳ｶ は末尾1バイト削っても解釈可能、2バイト削ると解釈不能、3バイト削ると解釈可能
 というあたりでdemeritsが違っているのではないかと感じました。

回答変更

2025/03/13 15:55

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -1,3 +1,35 @@
+これは https://www.php.net/manual/ja/function.mb-detect-encoding.php の
+> 文字エンコーディングの一覧を試す順番に指定します。
+の説明が正確ではないようです。
+https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3469
+https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3386
+https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3306
+https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3394
+と見ていくと、エンコーディングの候補から可能性が残ったもののうちで、demeritsが**一番小さいエンコーディングが選ばれる**のであって、demeritsが**等しい時だけ第2引数の順序が関係する**という感じですね。
+推測だと、
+№川家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
+邃門ｷ晏ｮｶ は末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
+№河家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能（これは№川家と同じ）
+邃匁ｲｳ螳ｶ は末尾1バイト削っても解釈可能、2バイト削ると解釈可能、3バイト削ると解釈可能
+というあたりでdemeritsが違っているのではないかと感じました。
+結論は
+UTF-8としてもShiftJISとしても解釈可能なバイト列を与えた時、そのどちらが選ばれるかは**決定的**ではあるが推測や指定は難しい。
+mb_detect_encoding("No.川家", 'UTF-8')
+mb_detect_encoding("No.川家", 'sjis-win')
+の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
+***
+追記ここまで。
+以下変更タイミングが同じなだけで関係なかったです。
 https://ja.stackoverflow.com/questions/100559/
 と同じ件のように思います。

些細

2025/03/12 15:32

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -7,4 +7,4 @@
 JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しません。（昔いわゆる"機種依存文字"と呼ばれていた範囲の文字です）
-そのためmb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい仕様になった**ということかと思います。
+そのためmb_convert_encodingやmb_detect_encodingが意図通り動作しないのが**正しい仕様になった**ということかと思います。

文章を直した

2025/03/12 15:32

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -6,4 +6,5 @@
 > ㎡ is not contain JIS X 0208. This means not contain Shift_JIS and EUC-JP
-JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しない──昔いわゆる"機種依存文字"と呼ばれていた範囲の──文字ですので、mb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい**仕様になったものと思います。
+JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しません。（昔いわゆる"機種依存文字"と呼ばれていた範囲の文字です）
+そのためmb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい仕様になった**ということかと思います。

些細

2025/03/12 15:30

投稿

quickquip

スコア11373

answer CHANGED Viewed

@@ -6,4 +6,4 @@
 > ㎡ is not contain JIS X 0208. This means not contain Shift_JIS and EUC-JP
-JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しない──昔いわゆる"機種依存文字"と呼ばれていた範囲の──文字であるため、mb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい**仕様になったものと思います。
+JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しない──昔いわゆる"機種依存文字"と呼ばれていた範囲の──文字ですので、mb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい**仕様になったものと思います。