編集履歴

回答編集履歴

サロゲート判定範囲バグ修正

2021/11/04 14:44

投稿

スコア13382

answer CHANGED Viewed

@@ -59,25 +59,28 @@
   private static int getUTF16Length(char c) throws UnsupportedEncodingException {
     int v = c & 0xffff;
-    if(v < 0xd800 || 0xe000 <= v) return 1;
-    if(0xd800 <= v || v < 0xdc00) return 2;
+    if(isHighSurrogate(v)) return 2;
-    throw new UnsupportedEncodingException(); //下位サロゲートは例外
+    if(isLowSurrogate(v)) throw new UnsupportedEncodingException();
+    return 1;
   }
   private static int getUTF8Length(char c) throws UnsupportedEncodingException {
     int v = c & 0xffff;
-    if(v < 0xd800 || 0xe000 <= v) {
+    if(isHighSurrogate(v)) return 4;
+    if(isLowSurrogate(v)) throw new UnsupportedEncodingException();
-      if(v < 128) return 1;
+    if(v < 128) return 1;
-      if(v < 2048) return 2;
+    if(v < 2048) return 2;
-      return 3;
+    return 3;
-    }
-    if(0xd800 <= v || v < 0xdc00) {
-      return 4;
-    }
-    throw new UnsupportedEncodingException();
   }
+  private static boolean isHighSurrogate(int c) {
+    return 0xd800 <= c && c < 0xdc00;
+  }
+  private static boolean isLowSurrogate(int c) {
+    return 0xdc00 <= c && c < 0xe000;
+  }
 }
 ```
 ```plain
 'あいaうg????えhおjかkきlくlけこhdさjしuすuせそ'

コード一部整理

2021/11/04 14:44

投稿

jimbe

スコア13382

answer CHANGED Viewed

@@ -48,12 +48,11 @@
   //UTF8 にした時に nbyte に収まる文字数を返す.
   private static int countChar(String src, int nbyte, int start) throws UnsupportedEncodingException {
     int last = start;
-    for(int i=start, j=0; i<src.length(); ) {
+    for(int i=0; last<src.length(); ) {
-      char c = src.charAt(i);
+      char c = src.charAt(last);
-      j += getUTF8Length(c);
+      i += getUTF8Length(c);
-      if(j > nbyte) break;
+      if(i > nbyte) break;
-      i += getUTF16Length(c);
+      last += getUTF16Length(c);
-      last = i;
     }
     return last - start;
   }

バグ修正

2021/11/04 12:24

投稿

jimbe

スコア13382

answer CHANGED Viewed

@@ -38,7 +38,7 @@
     System.out.println("------------");
-    for(int start=0, v=0; (v=countChar(data,10,start)) > 0; start+=v) {
+    for(int start=0, v=0; (v=countChar(data,13,start)) > 0; start+=v) {
       System.out.print("v="+v);
       String s = data.substring(start, start+v);
       System.out.println(": '"+s+"'="+s.getBytes("UTF8").length);
@@ -48,11 +48,12 @@
   //UTF8 にした時に nbyte に収まる文字数を返す.
   private static int countChar(String src, int nbyte, int start) throws UnsupportedEncodingException {
     int last = start;
-    for(int i=start, j=0; i<src.length() && j<=nbyte; ) {
+    for(int i=start, j=0; i<src.length(); ) {
-      last = i;
       char c = src.charAt(i);
+      j += getUTF8Length(c);
+      if(j > nbyte) break;
       i += getUTF16Length(c);
-      j += getUTF8Length(c);
+      last = i;
     }
     return last - start;
   }
@@ -77,6 +78,7 @@
     throw new UnsupportedEncodingException();
   }
 }
 ```
 ```plain
 'あいaうg????えhおjかkきlくlけこhdさjしuすuせそ'
@@ -101,11 +103,10 @@
 i=18, v=8: 'あいaうg????え'=18
 i=19, v=9: 'あいaうg????えh'=19
 ------------
-v=4: 'あいaう'=10
+v=5: 'あいaうg'=11
-v=5: 'g????えh'=9
+v=6: '????えhおj'=12
-v=4: 'おjかk'=8
-v=4: 'きlくl'=8
+v=6: 'かkきlくl'=12
-v=4: 'けこhd'=8
+v=6: 'けこhdさj'=12
-v=4: 'さjしu'=8
-v=3: 'すuせ'=7
+v=5: 'しuすuせ'=11
+v=1: 'そ'=3
 ```

説明修正

2021/11/04 12:15

投稿

jimbe

スコア13382

answer CHANGED Viewed

@@ -15,7 +15,7 @@
 ----
-ループはしますが内部で文字列編集はしないという方向で、 substring に使える値を返すメソッドにしてみました。
+ループはしますが内部で文字列編集（や getBytes() 等）はしないという方向で、 substring に使える値を返すメソッドにしてみました。
 テスト文字列は shiketa さんの回答から頂きました。

countChar に start パラメータ追加、main に切り出しサンプル追加

2021/11/04 11:38

投稿

jimbe

スコア13382

answer CHANGED Viewed

@@ -30,22 +30,31 @@
     System.out.println("'"+data+"'");
     for(int i=0; i<20; i++) {
-      int v = countChar(data, i);
+      int v = countChar(data, i, 0);
       System.out.print("i="+i+", v="+v);
       String s = data.substring(0, v);
       System.out.println(": '"+s+"'="+s.getBytes("UTF8").length);
     }
+    System.out.println("------------");
+    for(int start=0, v=0; (v=countChar(data,10,start)) > 0; start+=v) {
+      System.out.print("v="+v);
+      String s = data.substring(start, start+v);
+      System.out.println(": '"+s+"'="+s.getBytes("UTF8").length);
+    }
   }
   //UTF8 にした時に nbyte に収まる文字数を返す.
-  private static int countChar(String src, int nbyte) throws UnsupportedEncodingException {
+  private static int countChar(String src, int nbyte, int start) throws UnsupportedEncodingException {
-    int length = 0;
+    int last = start;
-    for(int i=0, j=0; i<src.length() && j<=nbyte; ) {
+    for(int i=start, j=0; i<src.length() && j<=nbyte; ) {
-      length = i;
+      last = i;
       char c = src.charAt(i);
       i += getUTF16Length(c);
       j += getUTF8Length(c);
     }
-    return length;
+    return last - start;
   }
   private static int getUTF16Length(char c) throws UnsupportedEncodingException {
@@ -91,4 +100,12 @@
 i=17, v=7: 'あいaうg????'=15
 i=18, v=8: 'あいaうg????え'=18
 i=19, v=9: 'あいaうg????えh'=19
+------------
+v=4: 'あいaう'=10
+v=5: 'g????えh'=9
+v=4: 'おjかk'=8
+v=4: 'きlくl'=8
+v=4: 'けこhd'=8
+v=4: 'さjしu'=8
+v=3: 'すuせ'=7
 ```

コード追加

2021/11/04 10:37

投稿

jimbe

スコア13382

answer CHANGED Viewed

@@ -11,4 +11,84 @@
 }
 ```
 といった感じで先頭のバイト値でその文字の必要バイト数が出せます。
-これを用いて文字数とバイト数を加算していけば、限界バイト数を超えた時点での文字数を得たりできると思いますが、ループなんですよね ^^;
+これを用いて文字数とバイト数を加算していけば、限界バイト数を超えた時点での文字数を得たりできると思いますが、ループなんですよね ^^;
+----
+ループはしますが内部で文字列編集はしないという方向で、 substring に使える値を返すメソッドにしてみました。
+テスト文字列は shiketa さんの回答から頂きました。
+```java
+package teratail_java.q367700;
+import java.io.UnsupportedEncodingException;
+public class Q367700 {
+  public static void main(String[] args) throws UnsupportedEncodingException {
+    final String data = "あいaうg\uD867\uDE3Dえhおjかkきlくlけこhdさjしuすuせそ";
+    System.out.println("'"+data+"'");
+    for(int i=0; i<20; i++) {
+      int v = countChar(data, i);
+      System.out.print("i="+i+", v="+v);
+      String s = data.substring(0, v);
+      System.out.println(": '"+s+"'="+s.getBytes("UTF8").length);
+    }
+  }
+  //UTF8 にした時に nbyte に収まる文字数を返す.
+  private static int countChar(String src, int nbyte) throws UnsupportedEncodingException {
+    int length = 0;
+    for(int i=0, j=0; i<src.length() && j<=nbyte; ) {
+      length = i;
+      char c = src.charAt(i);
+      i += getUTF16Length(c);
+      j += getUTF8Length(c);
+    }
+    return length;
+  }
+  private static int getUTF16Length(char c) throws UnsupportedEncodingException {
+    int v = c & 0xffff;
+    if(v < 0xd800 || 0xe000 <= v) return 1;
+    if(0xd800 <= v || v < 0xdc00) return 2;
+    throw new UnsupportedEncodingException(); //下位サロゲートは例外
+  }
+  private static int getUTF8Length(char c) throws UnsupportedEncodingException {
+    int v = c & 0xffff;
+    if(v < 0xd800 || 0xe000 <= v) {
+      if(v < 128) return 1;
+      if(v < 2048) return 2;
+      return 3;
+    }
+    if(0xd800 <= v || v < 0xdc00) {
+      return 4;
+    }
+    throw new UnsupportedEncodingException();
+  }
+}
+```
+```plain
+'あいaうg????えhおjかkきlくlけこhdさjしuすuせそ'
+i=0, v=0: ''=0
+i=1, v=0: ''=0
+i=2, v=0: ''=0
+i=3, v=1: 'あ'=3
+i=4, v=1: 'あ'=3
+i=5, v=1: 'あ'=3
+i=6, v=2: 'あい'=6
+i=7, v=3: 'あいa'=7
+i=8, v=3: 'あいa'=7
+i=9, v=3: 'あいa'=7
+i=10, v=4: 'あいaう'=10
+i=11, v=5: 'あいaうg'=11
+i=12, v=5: 'あいaうg'=11
+i=13, v=5: 'あいaうg'=11
+i=14, v=5: 'あいaうg'=11
+i=15, v=7: 'あいaうg????'=15
+i=16, v=7: 'あいaうg????'=15
+i=17, v=7: 'あいaうg????'=15
+i=18, v=8: 'あいaうg????え'=18
+i=19, v=9: 'あいaうg????えh'=19
+```