PLSQLで全角半角文字が入り乱れているデータの泣き別れ対応

Question

全角文字と半角文字が入り乱れている文字列を分割し、２つの変数に格納する際に、泣き別れが発生しないように対応を変えて分割をしたいと考えています。

前提として、自分の環境だと全角文字は１文字に対して３バイト扱いとなります。
下記のコードでは文字列'あああいいいaa'（全角文字6文字×3 = 18 + 半角2文字で合計20バイト）の文字を最大10バイトの変数２つに分割しようとしています。
これだと、4文字目の「い」が9~11バイトにかかっており、10バイトずつ分割した場合に泣き別れが発生して、
str1の最後に半角スペース１つ、str2の最初に半角スペース２つという形で「い」が置き換えられてしまいます。
```PLSQL
DECLARE
str0 VARCHAR2(20);
str1 VARCHAR2(10);
str2 VARCHAR2(10);
BEGIN
	str0 := 'あああいいいaa';

IF LENGTHB(str0) > 10 THEN
		str1 := str0;
	ELSE
		str1 := SUBSTRB(str0,1,10);
		str2 := SUBSTRB(str0,11);
	END;

DBMS_OUTPUT.PUT_LINE(str1);
	DBMS_OUTPUT.PUT_LINE(str2);
END;
```
求める結果としては、上記の場合だと
「あああ」までをstr1に格納し、
「いいいa」までをstr2に格納し、入りきらない最後の「a」は格納しないといった処理を行いたいです。

Accepted Answer

## #1

まず、データベース文字セットは`AL32UTF8`であるとします。そうでない場合は以下の説明は成り立ちません。このデータベース文字セットについて詳しくは[1]を参照してください。

なお、質問者さんは「全角文字は3バイト」とおっしゃっていますが、[UTF-8](https://ja.wikipedia.org/wiki/UTF-8) (`AL32UTF8`で用いる文字コード。`UTF8`のことではない) の場合は1文字が1、2、3、4バイトのいずれかでありえます。「補助文字」とされる4バイトの文字も多くのテキストデータに現れます (日本の漢字や絵文字などがあります)。

さて、今回はUnicode文字列を特定のバイト数に収まる長さで分割するとのことですので、次のようにします。

* 長さを調べるには`LENGTHB()`を使う。
* 部分文字列を得るには`SUBSTRB()`ではなく`SUBSTRC()`を使う。

なお、`SUBSTRB()`を使って文字の途中で分割すると欠けた文字のバイトはスペースに置換される仕様のようです[2]ので、Unicode文字列をバイト単位で分割することはできないと思われます。

先述の通りUnicode文字の長さは1から4バイトです。そこで、文字列の先頭からUnicode文字1文字ずつを`SUBSTRC()`で切り取り、`LENGTHB()`でバイト数を調べ、累計が10バイトを超えたら切り取りをやめる、という処理をすることで、質問者さんの目的は一応達せられるのかと思います。

## #2

ただし、Unicode文字ごとの分割が適切でない場合もあります。
* [結合文字](https://ja.wikipedia.org/wiki/%E7%B5%90%E5%90%88%E6%96%87%E5%AD%97#Unicode)を含む場合は分割されないように配慮する必要があるかもしれません (日本ではアイヌ語などに用いられる拡張片仮名の半濁点などの例があります。またアジアで言えばベトナム語には結合文字つきの英字が必須です)。
* [絵文字シーケンス](https://www.google.com/search?q=emoji+sequence+site%3Aunicode.org)のように、複数のUnicode文字の並びを単一の文字として扱うことが推奨されるものもあります (国旗の絵文字や、絵文字のバリエーションなど)。絵文字以外だと東南アジア・南アジアの多くの言語の文字がそうです。

一般にこのようなものは、なんらかの規則性がある (たとえば特定の範囲内の文字コードを必ず使用するので見分けがつくといったような) ものでは**ない**ため、基本的には文字ごとに個別の例外処理として実現する必要があります。またこれらは複数のUnicode文字の列であるため、UTF-8で表現すると長さが10バイトを超えるものも出てくる可能性があります。

こういったものにどの程度まで対応するのかは、実際の環境で対応が必要かどうか確認した上で、実装のコストとの相談になるかと思います。またPL/SQLではなく外部のツールやアプリケーションを利用してデータの加工をすることも考えられるかと思います。

---
[1] 『Oracle Databaseグローバリゼーション・サポート・ガイド』「[6 Unicodeを使用した多言語データベースのサポート](https://docs.oracle.com/cd/F19136_01/nlspg/supporting-multilingual-databases-with-unicode.html)」.
[2] Shift the Oracle: [SUBSTR、SUBSTRB SUBSTR$$C,2,4$$](https://www.shift-the-oracle.com/sql/functions/substr.html).

#1

#2

関連した質問