10進数の巨大数をなるべく少ない文字列で表したい

Question

表題の通りです。
例えば

1982398471093871098719831489020412341

のような数字をなるべく少ない文字列で表したいです。

８８進数などを作る　→　できても2桁の省略
2桁ごとに区切って１００進数等適用　→　半分ほど省略できますが、文字コードの考慮必要あり

等考えましたが、より良い方法が思い浮かびません。
この手の問題はきっと先人が何万回も考えていることかと思いますが、どのように検索すればよいか分かりませんでした。
よろしくお願いします。

Accepted Answer

情報理論的に冗長な部分を削るのが（可逆）圧縮だけど、提示の数値単体では冗長性（＝法則）が見いだせない。せいぜい、数値をBase64みたいなのでエンコードすればBase10(ASCII数値文字列)より桁数は減るよ、程度（1byteあたりのペイロードが6bitと3.3bitなので、桁数は約半減。提示の「2桁区切りで100進数」と同じ）。

複数の数値があれば、相関がでて圧縮できることもある。DNSみたいな、「前に出てきた何バイト目～何バイトと同じ」とか、「前の値に＋2411」とか。
あるいは、プログラム側に辞書を内蔵しておくとか(HTTP3系）、何らかの法則によって生成された数値であるなら数式を内蔵して、係数を渡す手もあるかもしれない。
＃json全体をgzip圧縮したようなのの方が縮んだりすることも多いけどね。

1文字まで絞りたい？ 辞書内蔵で1982398471093871098719831489020412341に対して（だけ）コード'A'を割り振るみたいな仕様にすれば絞れるけど、辞書式で絞りたい他の数値が300種類でもあったら原理上無理だよね。1byteで区別できるのは255種だし、UTF-8の1byte1文字なら127種で空白・制御記号を外すと100もない。
UnicodeのEMOJIとかの複雑な結合を「1文字」とするのであれば、楽しい符号化もいろいろ考えられるけど、もちろん実用上のメリットは全くない。（表示上1文字幅になるけど、実際は60byteあって4byteのペイロードを保持する、みたいな話。）

Answer

> ８８進数などを作る　→　できても2桁の省略 2桁の省略とはどういうことでしょうか？８８進数を作るとこんな感じになって37桁から19文字になります。 asciiで問題が起きそうにない文字を利用すると93進数まで作れますがその場合も19文字でした。 ```python data = 1982398471093871098719831489020412341 #t = ' !"#$%&()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxyz{|}~' t = ' !"#$%&()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[]^_`abcdefghijklmnopqrstuvwxy' def encode(d, r = ''): s = len(t) (d, m) = divmod(d, s) r = t[m] + r if d == 0: return r return encode(d, r) def decode(d, r = 0): r = t.index(d[0]) + r * len(t) if len(d) > 1: return decode(d[1:], r) return r print(data, len(str(data))) s = encode(data) print(s, len(s)) print(decode(s)) ``` あとは冗長性以外では、出現頻度に差があれば、その頻度によってビット長を変えて割り当てるのもありですね。その場合は辞書を内蔵する必要があります。例えば、0が他のすべての文字と同じだけ出現する場合には 0 - 0 1001 - 1 1010 - 2 1011 - 3 1100 - 4 1101 - 5 11100 - 6 11101 - 7 11110 - 8 11111 - 9 6,7,8,9が5ビットになるので、もっと良いマッピングはできますが、あくまでイメージです。あとこれだと桁数や終端がないため、それもマッピングする必要があります。で、その後できたバイナリをbase64などで符号化すれば文字列ができます。まあ、汎用的にやろうとすると、gzipなどの圧縮プログラムにはとても勝てないですが、独自の規則性があり、それを利用してプログラムに内蔵させれば、よりよい圧縮率になるかもしれません。

関連した質問