回答編集履歴

11

脱字

2025/03/13 23:21

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -23,7 +23,7 @@
23
23
 
24
24
  mb_detect_encoding("No.川家", 'UTF-8', true) == 'UTF-8'
25
25
  mb_detect_encoding("No.川家", 'sjis-win', true) == 'sjis-win'
26
- の両方を試して、いずれがfalseでいずれかがならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
26
+ の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
27
27
 
28
28
  追記ここまで。
29
29
 

10

コード訂正しました

2025/03/13 16:45

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -21,9 +21,9 @@
21
21
  結論は
22
22
  UTF-8としてもShiftJISとしても解釈可能なバイト列を与えた時、そのどちらが選ばれるかは**決定的**ではあるが推測や指定は難しい。
23
23
 
24
- mb_detect_encoding("No.川家", 'UTF-8')
24
+ mb_detect_encoding("No.川家", 'UTF-8', true) == 'UTF-8'
25
- mb_detect_encoding("No.川家", 'sjis-win')
25
+ mb_detect_encoding("No.川家", 'sjis-win', true) == 'sjis-win'
26
- の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
26
+ の両方を試して、いずれがfalseでいずれかがならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
27
27
 
28
28
  追記ここまで。
29
29
 

9

訂正

2025/03/13 16:34

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -25,17 +25,21 @@
25
25
  mb_detect_encoding("No.川家", 'sjis-win')
26
26
  の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
27
27
 
28
+ 追記ここまで。
29
+
28
30
  ***
29
31
 
30
- 追記ここまで。
31
- ~~以下変更タイミングが同じなだけで関係なかったです。~~ Contributorも誤解した話だったようです。以下さらに追記。
32
32
 
33
33
  https://github.com/php/php-src/issues/16566#issuecomment-2435388893
34
34
 
35
- で議論されていましたが、今回 "№河家" という**UTF-8 が選ばれる実例**が見つかりましたので、このContributorのコメントは正しくないことになります。
36
- count_demerits関数の不備とし指摘してもよと思われます。
35
+ で議論されていましたが、Not Planned で終わっています。
37
36
 
38
37
  再追記ここまで。
38
+
39
+ ***
40
+
41
+ 以下変更タイミングが同じなだけで関係なかったです。
42
+
39
43
 
40
44
  https://ja.stackoverflow.com/questions/100559/
41
45
 

8

些細

2025/03/13 16:24

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -28,7 +28,7 @@
28
28
  ***
29
29
 
30
30
  追記ここまで。
31
- ~~以下変更タイミングが同じなだけで関係なかったです。~~Contributorも誤解しただったようです。以下さらに追記。
31
+ ~~以下変更タイミングが同じなだけで関係なかったです。~~ Contributorも誤解しただったようです。以下さらに追記。
32
32
 
33
33
  https://github.com/php/php-src/issues/16566#issuecomment-2435388893
34
34
 

7

追記

2025/03/13 16:23

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -28,7 +28,14 @@
28
28
  ***
29
29
 
30
30
  追記ここまで。
31
- 以下変更タイミングが同じなだけで関係なかったです。
31
+ ~~以下変更タイミングが同じなだけで関係なかったです。~~Contributorも誤解した件だったようです。以下さらに追記。
32
+
33
+ https://github.com/php/php-src/issues/16566#issuecomment-2435388893
34
+
35
+ で議論されていましたが、今回 "№河家" という**UTF-8 が選ばれる実例**が見つかりましたので、このContributorのコメントは正しくないことになります。
36
+ count_demerits関数の不備として指摘してもよいと思われます。
37
+
38
+ 再追記ここまで。
32
39
 
33
40
  https://ja.stackoverflow.com/questions/100559/
34
41
 

6

些細

2025/03/13 15:59

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -10,11 +10,11 @@
10
10
 
11
11
  推測だと、
12
12
 
13
- №川家 末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
13
+ №川家 をUTF-8でチェックすると、末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
14
- 邃門キ晏ョカ 末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
14
+ 邃門キ晏ョカ をShiftJISでチェックすると、末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
15
15
 
16
- №河家 末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能(これは№川家と同じ)
16
+ №河家 をUTF-8でチェックすると、末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能(これは№川家と同じ)
17
- 邃匁イウ螳カ 末尾1バイト削っても解釈可能、2バイト削ると解釈不能、3バイト削ると解釈可能
17
+ 邃匁イウ螳カ をShiftJISでチェックすると、末尾1バイト削っても解釈可能、2バイト削ると解釈不能、3バイト削ると解釈可能
18
18
 
19
19
  というあたりでdemeritsが違っているのではないかと感じました。
20
20
 

5

誤記

2025/03/13 15:57

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -14,7 +14,7 @@
14
14
  邃門キ晏ョカ は末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
15
15
 
16
16
  №河家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能(これは№川家と同じ)
17
- 邃匁イウ螳カ は末尾1バイト削っても解釈可能、2バイト削ると解釈能、3バイト削ると解釈可能
17
+ 邃匁イウ螳カ は末尾1バイト削っても解釈可能、2バイト削ると解釈能、3バイト削ると解釈可能
18
18
 
19
19
  というあたりでdemeritsが違っているのではないかと感じました。
20
20
 

4

回答変更

2025/03/13 15:55

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -1,3 +1,35 @@
1
+ これは https://www.php.net/manual/ja/function.mb-detect-encoding.php の
2
+ > 文字エンコーディングの一覧を試す順番に指定します。
3
+ の説明が正確ではないようです。
4
+
5
+ https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3469
6
+ https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3386
7
+ https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3306
8
+ https://github.com/php/php-src/blob/3f3ac4de25486fabae99d1d648583d4bd852a592/ext/mbstring/mbstring.c#L3394
9
+ と見ていくと、エンコーディングの候補から可能性が残ったもののうちで、demeritsが**一番小さいエンコーディングが選ばれる**のであって、demeritsが**等しい時だけ第2引数の順序が関係する**という感じですね。
10
+
11
+ 推測だと、
12
+
13
+ №川家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能
14
+ 邃門キ晏ョカ は末尾1〜2バイト削っても解釈可能、3バイト削ると解釈不能
15
+
16
+ №河家 は末尾1〜2バイト削ると解釈不能、3バイト削ると解釈可能(これは№川家と同じ)
17
+ 邃匁イウ螳カ は末尾1バイト削っても解釈可能、2バイト削ると解釈可能、3バイト削ると解釈可能
18
+
19
+ というあたりでdemeritsが違っているのではないかと感じました。
20
+
21
+ 結論は
22
+ UTF-8としてもShiftJISとしても解釈可能なバイト列を与えた時、そのどちらが選ばれるかは**決定的**ではあるが推測や指定は難しい。
23
+
24
+ mb_detect_encoding("No.川家", 'UTF-8')
25
+ mb_detect_encoding("No.川家", 'sjis-win')
26
+ の両方を試して、いずれがfalseでいずれかがtrueならtrueな方で、両方trueの時はデフォルトをどちらかに決めておいてそちらでmb_convert_encodingするべきかなと思います。
27
+
28
+ ***
29
+
30
+ 追記ここまで。
31
+ 以下変更タイミングが同じなだけで関係なかったです。
32
+
1
33
  https://ja.stackoverflow.com/questions/100559/
2
34
 
3
35
  と同じ件のように思います。

3

些細

2025/03/12 15:32

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -7,4 +7,4 @@
7
7
 
8
8
 
9
9
  JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しません。(昔いわゆる"機種依存文字"と呼ばれていた範囲の文字です)
10
- そのためmb_convert_encodingやmb_detect_encodingが意図通り動作しないのが**正しい仕様になった**ということかと思います。
10
+ そのためmb_convert_encodingやmb_detect_encodingが意図通り動作しないのが**正しい仕様になった**ということかと思います。

2

文章を直した

2025/03/12 15:32

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -6,4 +6,5 @@
6
6
  > ㎡ is not contain JIS X 0208. This means not contain Shift_JIS and EUC-JP
7
7
 
8
8
 
9
- JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しない──昔いわゆる"機種依存文字"と呼ばれていた範囲の──文字ですので、mb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい**仕様になったものと思います。
9
+ JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しません。(昔いわゆる"機種依存文字"と呼ばれていた範囲の文字です
10
+ そのためmb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい仕様になった**ということかと思います。

1

些細

2025/03/12 15:30

投稿

quickquip
quickquip

スコア11277

test CHANGED
@@ -6,4 +6,4 @@
6
6
  > ㎡ is not contain JIS X 0208. This means not contain Shift_JIS and EUC-JP
7
7
 
8
8
 
9
- JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しない──昔いわゆる"機種依存文字"と呼ばれていた範囲の──文字であるため、mb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい**仕様になったものと思います。
9
+ JIS X 0208の仕様には**存在しない**文字であるため、UnicodeのコードポイントとJISとの変換表にも存在しない──昔いわゆる"機種依存文字"と呼ばれていた範囲の──文字ですので、mb_convert_encodingやmb_detect_encodingが意図と通り動作しないのが**正しい**仕様になったものと思います。