回答編集履歴
11
脱字
test
CHANGED
@@ -23,7 +23,7 @@
|
|
23
23
|
|
24
24
|
mb_detect_encoding("No.川家", 'UTF-8', true) == 'UTF-8'
|
25
25
|
mb_detect_encoding("No.川家", 'sjis-win', true) == 'sjis-win'
|
26
|
-
の両方を試して、いずれがfalseでいずれかがならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
|
26
|
+
の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
|
27
27
|
|
28
28
|
追記ここまで。
|
29
29
|
|
10
コード訂正しました
test
CHANGED
@@ -21,9 +21,9 @@
|
|
21
21
|
結論は
|
22
22
|
UTF-8としてもShiftJISとしても解釈可能なバイト列を与えた時、そのどちらが選ばれるかは**決定的**ではあるが推測や指定は難しい。
|
23
23
|
|
24
|
-
mb_detect_encoding("No.川家", 'UTF-8')
|
24
|
+
mb_detect_encoding("No.川家", 'UTF-8', true) == 'UTF-8'
|
25
|
-
mb_detect_encoding("No.川家", 'sjis-win')
|
25
|
+
mb_detect_encoding("No.川家", 'sjis-win', true) == 'sjis-win'
|
26
|
-
の両方を試して、いずれがfalseでいずれかが
|
26
|
+
の両方を試して、いずれがfalseでいずれかがならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
|
27
27
|
|
28
28
|
追記ここまで。
|
29
29
|
|
9
訂正
test
CHANGED
@@ -25,17 +25,21 @@
|
|
25
25
|
mb_detect_encoding("No.川家", 'sjis-win')
|
26
26
|
の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
|
27
27
|
|
28
|
+
追記ここまで。
|
29
|
+
|
28
30
|
***
|
29
31
|
|
30
|
-
追記ここまで。
|
31
|
-
~~以下変更タイミングが同じなだけで関係なかったです。~~ Contributorも誤解した話だったようです。以下さらに追記。
|
32
32
|
|
33
33
|
https://github.com/php/php-src/issues/16566#issuecomment-2435388893
|
34
34
|
|
35
|
-
で議論されていましたが、今回 "№河家" という**UTF-8 が選ばれる実例**が見つかりましたので、このContributorのコメントは正しくないことになります。
|
36
|
-
|
35
|
+
で議論されていましたが、Not Planned で終わっています。
|
37
36
|
|
38
37
|
再追記ここまで。
|
38
|
+
|
39
|
+
***
|
40
|
+
|
41
|
+
以下変更タイミングが同じなだけで関係なかったです。
|
42
|
+
|
39
43
|
|
40
44
|
https://ja.stackoverflow.com/questions/100559/
|
41
45
|
|
8
些細
test
CHANGED
@@ -28,7 +28,7 @@
|
|
28
28
|
***
|
29
29
|
|
30
30
|
追記ここまで。
|
31
|
-
~~以下変更タイミングが同じなだけで関係なかったです。~~Contributorも誤解した
|
31
|
+
~~以下変更タイミングが同じなだけで関係なかったです。~~ Contributorも誤解した話だったようです。以下さらに追記。
|
32
32
|
|
33
33
|
https://github.com/php/php-src/issues/16566#issuecomment-2435388893
|
34
34
|
|
7
追記
test
CHANGED
@@ -28,7 +28,14 @@
|
|
28
28
|
***
|
29
29
|
|
30
30
|
追記ここまで。
|
31
|
-
以下変更タイミングが同じなだけで関係なかったです。
|
31
|
+
~~以下変更タイミングが同じなだけで関係なかったです。~~Contributorも誤解した件だったようです。以下さらに追記。
|
32
|
+
|
33
|
+
https://github.com/php/php-src/issues/16566#issuecomment-2435388893
|
34
|
+
|
35
|
+
で議論されていましたが、今回 "№河家" という**UTF-8 が選ばれる実例**が見つかりましたので、このContributorのコメントは正しくないことになります。
|
36
|
+
count_demerits関数の不備として指摘してもよいと思われます。
|
37
|
+
|
38
|
+
再追記ここまで。
|
32
39
|
|
33
40
|
https://ja.stackoverflow.com/questions/100559/
|
34
41
|
|
6
些細
test
CHANGED
@@ -10,11 +10,11 @@
|
|
10
10
|
|
11
11
|
推測だと、
|
12
12
|
|
13
|
-
№川家
|
13
|
+
№川家 をUTF-8でチェックすると、末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
|
14
|
-
邃門キ晏ョカ
|
14
|
+
邃門キ晏ョカ をShiftJISでチェックすると、末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
|
15
15
|
|
16
|
-
№河家
|
16
|
+
№河家 をUTF-8でチェックすると、末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能(これは№川家と同じ)
|
17
|
-
邃匁イウ螳カ
|
17
|
+
邃匁イウ螳カ をShiftJISでチェックすると、末尾1バイト削っても解釈可能、2バイト削ると解釈不能、3バイト削ると解釈可能
|
18
18
|
|
19
19
|
というあたりでdemeritsが違っているのではないかと感じました。
|
20
20
|
|
5
誤記
test
CHANGED
@@ -14,7 +14,7 @@
|
|
14
14
|
邃門キ晏ョカ は末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
|
15
15
|
|
16
16
|
№河家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能(これは№川家と同じ)
|
17
|
-
邃匁イウ螳カ は末尾1バイト削っても解釈可能、2バイト削ると解釈
|
17
|
+
邃匁イウ螳カ は末尾1バイト削っても解釈可能、2バイト削ると解釈不能、3バイト削ると解釈可能
|
18
18
|
|
19
19
|
というあたりでdemeritsが違っているのではないかと感じました。
|
20
20
|
|
4
回答変更
test
CHANGED
@@ -1,3 +1,35 @@
|
|
1
|
+
これは https://www.php.net/manual/ja/function.mb-detect-encoding.php の
|
2
|
+
> 文字エンコーディングの一覧を試す順番に指定します。
|
3
|
+
の説明が正確ではないようです。
|
4
|
+
|
5
|
+
https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3469
|
6
|
+
https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3386
|
7
|
+
https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3306
|
8
|
+
https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3394
|
9
|
+
と見ていくと、エンコーディングの候補から可能性が残ったもののうちで、demeritsが**一番小さいエンコーディングが選ばれる**のであって、demeritsが**等しい時だけ第2引数の順序が関係する**という感じですね。
|
10
|
+
|
11
|
+
推測だと、
|
12
|
+
|
13
|
+
№川家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
|
14
|
+
邃門キ晏ョカ は末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
|
15
|
+
|
16
|
+
№河家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能(これは№川家と同じ)
|
17
|
+
邃匁イウ螳カ は末尾1バイト削っても解釈可能、2バイト削ると解釈可能、3バイト削ると解釈可能
|
18
|
+
|
19
|
+
というあたりでdemeritsが違っているのではないかと感じました。
|
20
|
+
|
21
|
+
結論は
|
22
|
+
UTF-8としてもShiftJISとしても解釈可能なバイト列を与えた時、そのどちらが選ばれるかは**決定的**ではあるが推測や指定は難しい。
|
23
|
+
|
24
|
+
mb_detect_encoding("No.川家", 'UTF-8')
|
25
|
+
mb_detect_encoding("No.川家", 'sjis-win')
|
26
|
+
の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
|
27
|
+
|
28
|
+
***
|
29
|
+
|
30
|
+
追記ここまで。
|
31
|
+
以下変更タイミングが同じなだけで関係なかったです。
|
32
|
+
|
1
33
|
https://ja.stackoverflow.com/questions/100559/
|
2
34
|
|
3
35
|
と同じ件のように思います。
|
3
些細
test
CHANGED
@@ -7,4 +7,4 @@
|
|
7
7
|
|
8
8
|
|
9
9
|
JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しません。(昔いわゆる"機種依存文字"と呼ばれていた範囲の文字です)
|
10
|
-
そのためmb_convert_encodingやmb_detect_encodingが意図
|
10
|
+
そのためmb_convert_encodingやmb_detect_encodingが意図通り動作しないのが**正しい仕様になった**ということかと思います。
|
2
文章を直した
test
CHANGED
@@ -6,4 +6,5 @@
|
|
6
6
|
> ㎡ is not contain JIS X 0208. This means not contain Shift_JIS and EUC-JP
|
7
7
|
|
8
8
|
|
9
|
-
JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在し
|
9
|
+
JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しません。(昔いわゆる"機種依存文字"と呼ばれていた範囲の文字です)
|
10
|
+
そのためmb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい仕様になった**ということかと思います。
|
1
些細
test
CHANGED
@@ -6,4 +6,4 @@
|
|
6
6
|
> ㎡ is not contain JIS X 0208. This means not contain Shift_JIS and EUC-JP
|
7
7
|
|
8
8
|
|
9
|
-
JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しない──昔いわゆる"機種依存文字"と呼ばれていた範囲の──文字で
|
9
|
+
JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しない──昔いわゆる"機種依存文字"と呼ばれていた範囲の──文字ですので、mb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい**仕様になったものと思います。
|