phpで特定の文字列のエンコードで文字化けさせないようにしたい

Question

### 実現したいこと
文字コードを変換する際に特定の文字列だけ文字化けしてしまうので文字化けさせずに文字コードを変換したい。
対象の文字列はSJISかUTF-8で、変換後はUTF-8に統一したい。

### 発生している問題・分からないこと
№川家
この文字列に対してmb_convert_encodingで文字コード変換する文字化けしてしまうので
文字化けしないようにさせたいです。
SJISへの変換は問題ないですが、UTF-8への変換で文字化けしてしまいます。

### 該当のソースコード

```PHP
echo mb_convert_encoding("№川家", 'UTF-8', 'utf-8, sjis-win');
echo mb_convert_encoding("No.川家", 'UTF-8', 'utf-8, sjis-win');
echo mb_convert_encoding("№河家", 'UTF-8', 'utf-8, sjis-win');
echo mb_convert_encoding("№川毛", 'UTF-8', 'utf-8, sjis-win');
```

### 試したこと・調べたこと
- [x] teratailやGoogle等で検索した
- [x] ソースコードを自分なりに変更した
- [ ] 知人に聞いた
- [ ] その他

##### 上記の詳細・結果
貼り付けたソースコードの結果
邃門ｷ晏ｮｶ
No.川家
№河家
№川毛
と、1番上の文字列だけ文字化けしてしまいます。
第1引数は変数でUTF-8かSJISが混在しているためエンコードの指定はこのようにしています。

1番上のソースコードを
mb_convert_encoding("№川家", 'sjis, 'utf-8, sjis-win');
このようにSJISに変換しようとすると文字化けせずに動きます。
何故この文字列のときだけSJISなら動くのかわからないです。

### 補足
phpのバージョンは8.2.12
xamppとVScodeを使っています。
また、phpファイルはUTF-8で保存しています。

Accepted Answer

PHP8.1 において、`mb_convert_encoding()` の第3引数の挙動が変更されました。

PHP8.0までは、第3引数に記述した順序で置換を試みる、というものでした。
PHP8.1以降は記述された文字エンコーディングの中で最も可能性が高いものを検出する、というものに変更されています。
このためバージョンによって結果に差異がでます。

'№川家' は `e28496e5b79de5aeb6`ですから、これを検出させた結果
`e284` 邃
`96e5` 門
`b7` ｷ
`9de5` 晏
`ae` ｮ
`b6` ｶ
となり、すべての文字がsjis-winとして正しく表現出来るので、この文字列はsjis-winであると判定されているのかと思います。

対策ですが、質問のケースのみであれば、PHP8.0の挙動と同様に、指定した順序でエンコーディングを試みる関数を実装する事で解消はできます。
```php
function convert_encoding_orders(string $string, array $encodings) {
    foreach ($encodings as $encoding) {
        if (mb_check_encoding($string, $encoding)) {
            return mb_convert_encoding($string, 'UTF-8', $encoding);
        }
    }

return false;
}

$str = '№川家';

echo convert_encoding_orders($str, ['UTF-8', 'SJIS-win']);
// №川家

echo convert_encoding_orders($str, ['SJIS-win', 'UTF-8']);
// 邃門ｷ晏ｮｶ
```

しかしながら、このやり方では、sjis-winの文字列というのが正しいのに、UTF-8と誤判定されてしまう可能性も残ります。
入力の時点で文字エンコーディングを合わせるのが最も良いかと思います。

Answer

> 対象の文字列はSJISかUTF-8で、

[PHP: Possible modifiers in regex patterns - Pattern Modifiers](https://www.php.net/manual/en/reference.pcre.pattern.modifiers.php#reference.pcre.pattern.modifiers) の `u` modifier を利用してもよいかと思います。
> `u` (PCRE_UTF8)
>
> This modifier turns on additional functionality of PCRE that is incompatible with Perl. Pattern and subject strings are treated as UTF-8. An invalid subject will cause the `preg_*` function to match nothing;

```php
<?php

function detectUTF8($string)
{
    return preg_match('//u', $string) ? 'UTF-8' : 'sjis-win';
}

$strings = [
     // UTF-8   SJIS
    "№川家",   "\x87\x82\x90\xec\x89\xc6",
    "No.川家", "\x4e\x6f\x2e\x90\xec\x89\xc6", 
    "№河家",   "\x87\x82\x89\xcd\x89\xc6",
    "№川毛",   "\x87\x82\x90\xec\x96\xd1",
    "abc",     "\x61\x62\x63"  // ASCII code
];
foreach ($strings as $str) {
    echo mb_convert_encoding($str, 'UTF-8', detectUTF8($str)) . PHP_EOL;
}

# №川家
# №川家
# No.川家
# No.川家
# №河家
# №河家
# №川毛
# №川毛
# abc
# abc
```

Answer

シンプルな方法ではどうしようもないです。

UTF-8で書かれた「№川家」と、SJISの「邃門ｷ晏ｮｶ」は、どちらも「E2 84 96 E5 B7 9D E5 AE B6」という**同一のバイト列**です（「№」はUTF-8側にしか含まれませんので、SJISかSJIS-WINかという話は無関係です）。

どちらも**文字として成立はしている**ので、このどちらが正しいかを判断するのは一筋縄ではいかないです。

* どのような文字列が来るかの事前情報があるなら、それと照らし合わせて正しくないエンコードだと判定させる
* 生成AIに投げてみる

Answer

これは https://www.php.net/manual/ja/function.mb-detect-encoding.php の
> 文字エンコーディングの一覧を試す順番に指定します。
の説明が正確ではないようです。

https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3469
https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3386
https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3306
https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3394
と見ていくと、エンコーディングの候補から可能性が残ったもののうちで、demeritsが**一番小さいエンコーディングが選ばれる**のであって、demeritsが**等しい時だけ第2引数の順序が関係する**という感じですね。

推測だと、

№川家 をUTF-8でチェックすると、末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
邃門ｷ晏ｮｶ をShiftJISでチェックすると、末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能

№河家 をUTF-8でチェックすると、末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能（これは№川家と同じ）
邃匁ｲｳ螳ｶ をShiftJISでチェックすると、末尾1バイト削っても解釈可能、2バイト削ると解釈不能、3バイト削ると解釈可能

というあたりでdemeritsが違っているのではないかと感じました。

結論は
UTF-8としてもShiftJISとしても解釈可能なバイト列を与えた時、そのどちらが選ばれるかは**決定的**ではあるが推測や指定は難しい。

mb_detect_encoding("No.川家", 'UTF-8', true) == 'UTF-8'
mb_detect_encoding("No.川家", 'sjis-win', true) == 'sjis-win'
の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。

追記ここまで。

***

https://github.com/php/php-src/issues/16566#issuecomment-2435388893

で議論されていましたが、Not Planned で終わっています。

再追記ここまで。

***

以下変更タイミングが同じなだけで関係なかったです。

https://ja.stackoverflow.com/questions/100559/

と同じ件のように思います。

https://github.com/php/php-src/issues/17238#issuecomment-2558292993
> ㎡ is not contain JIS X 0208. This means not contain Shift_JIS and EUC-JP

JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しません。（昔いわゆる"機種依存文字"と呼ばれていた範囲の文字です）
そのためmb_convert_encodingやmb_detect_encodingが意図通り動作しないのが**正しい仕様になった**ということかと思います。

Answer

ざっと試してみた感じ問題なさそうですが以下でソースを確認してみてください ```php

実現したいこと

発生している問題・分からないこと

該当のソースコード

試したこと・調べたこと

上記の詳細・結果

補足

追記

関連した質問