ハッシュ値とUUIDを用いたデータ管理

Question

以下のコードは、[こちらのコード](https://github.com/MtkN1/pybotters/blob/6244c5f7e21d05af8b96c8e6bcdb77966f33c715/pybotters/store.py#L20)（※）の気になった部分をシンプルな形に変更した抜粋コードです。

内容は、インメモリでデータ管理するコードで、
以下の仕様が特徴です。
**`data`を`DataBase`に渡す**
**`DataBase`は`data`のハッシュ値　及び `uuid`を生成する**
**`._data: {uuid, data} `, `._index: {hash value, uuid}`の形で管理する**

### わからないこと
pythonに限った話ではないかもしれないですが、
このように、**ハッシュ値とUUIDを用いたデータ管理の目的、メリット**がいまいち分かりません。

データを直接、リストや辞書オブジェクトに格納して管理するのでなく、
わざわざ ①ハッシュ値とUUID、②UUIDと対象データ、という異なる辞書に格納し、
①②をUUIDで紐づけることでどんな良いことがあるのか。


***
```python
from typing import Dict
import uuid

class DataBase:
    def __init__(self) -> None:
        self._data: Dict[uuid.UUID, Dict] = {}
        self._index: Dict[int, uuid.UUID] = {}

    def insert(self,
               data: Dict[str, int]) -> None:

        keyhash = hash(tuple(data))
        _id = uuid.uuid4()
        self._data[_id] = data
        self._index[keyhash] = _id

db = DataBase()
db.insert(data={'priceA': 5000})
db.insert(data={'priceB': 4000})

...

```

（※）参照元のコードは、API経由で入手したデータをインメモリで管理（READ, UPDATE, INSERT, DELETE等）するクライアント側処理です。

Accepted Answer

# ★初期回答
※ 誤っている点もありますが、記録として残しておきます。後ろに追加した**追加検証**もご覧ください。（誤っている箇所は取り消し線を入れました）

完全に私の主観ですが、こういう事ではないでしょうか。

- ① UUIDにより辞書型の**キーが重複しない**様にし
- ② ハッシュ化により、**データ同士の比較を容易**にしている


## UUIDについて
`_id = uuid.uuid4()` について
UUID4は乱数ベースなのでデバイスの違いなどによる偏りが出ないと予測します。
UUIDを使う意図としては**重複しない事**ですね。辞書型のキーとして使うならここは重要と思います。
~~データの中身は一緒でもキーが異なるので、同じデータをいくつも持てる事にもなります。~~

※このプロダクトだとキーは2種類。同一データでもユニークに扱うためのキーと、KV型データの中のキーに相当するものがあります。以降、**ユニークキー**、**データキー**と使い分けます。

## ハッシュ化について
`hash(tuple(data))` について
データをハッシュ化する事で、一定の型（組込hash()なので整数）になります。
~~格納するデータの型はオブジェクトも含んでまちまちだと思いますが、一緒かどうかという判定はラクに出来ると思います。
キーが違っていても同じデータというのはあるので、それらが一緒かどうかというのもハッシュを見るだけでOKという事になります。~~

※正しくは、**データキーの重複に容易に気づける事**でしょう


~~ただ、これは要件次第ではデメリットにもなると思っていまして
データとしてオブジェクトを格納する場合、一律で`hash(tuple(data))`としているのでオブジェクトの中の特定の値を見たいといった場合には、正しく比較が出来ない可能性もあります。
（例えば`data.hoge`の値だけで同値かを判定する）~~

~~単に、is演算子的な比較をしたいのかどうかというのもありますね。
どちらにせよ、この辺は作りたいものに合わせて修正する必要があるかもしれません。~~

※botterの性質を考えると、デメリットは特に思いつきません

## 蛇足
`Java`の話になりますが、全てのObjectにはEquals(obj)という関数があります。
これはObject自身のhash値を計算して、引数の`obj`と同値かどうかで判定しています。

~~質問に掲載したコードの意図はこれと似たようなものではないのかと思いました。~~

※機能の性質としてはあっているが、意図とは異なるでしょうね…orz

## 参考
[Python 標準ライブラリ » 組み込み関数](https://docs.python.org/ja/3/library/functions.html#hash)
https://docs.python.org/ja/3/library/functions.html#hash

[Python インターネットプロトコルとサポート » uuid --- RFC 4122 に基づくUUID オブジェクト](https://docs.python.org/ja/3/library/uuid.html)
https://docs.python.org/ja/3/library/uuid.html

[モジュール java.base > パッケージ java.lang > クラスObject > java.lang.Object](https://docs.oracle.com/javase/jp/15/docs/api/java.base/java/lang/Object.html#equals(java.lang.Object))
https://docs.oracle.com/javase/jp/15/docs/api/java.base/java/lang/Object.html#equals(java.lang.Object)


# ★追加検証分
追記分です。

今回掲載したコードで目的を考えるなら、下記の性質から**単サーバ複クライアントでも最新データに気づく為の仕掛け**と考えると腑に落ちました。

- ① `DataBase._index`にはキーの数だけ要素が増える事
- ② `DataBase._data`の各要素に対するindexは、最新のidを指している事
- ③ GitHubのプロダクトが仮想通貨用のbotterである事（時間とタイミングの勝負でしょうし）


## 検証コード
```python3
from typing import Dict
import uuid

class DataBase:

    def __init__(self) -> None:
        """
        初期化
        """
        self._data: Dict[uuid.UUID, Dict] = {}
        self._index: Dict[int, uuid.UUID] = {}


    def insert(self, data: Dict[str, int]) -> None:
        """
        KV型データを追加する
        """
        _id = uuid.uuid4()
        self._data[_id] = data

        keyhash = hash(tuple(data))
        self._index[keyhash] = _id

    def print_all_datas(self):
        """
        データリストを出力する
        """
        for i, _id in enumerate(self._data):
            _data = self._data[_id]
            _seed = tuple(_data)
            _keyhash = hash(_seed)
            _index = self._index[_keyhash]
            print(f'{i} => id: {_id}, index: {_index}, hash: {_keyhash: >20}, seed: {_seed}, data: {_data}')

    def print_all_indexes(self):
        """
        ハッシュリストを出力する
        """
        for i, _keyhash in enumerate(self._index):
            _id = self._index[_keyhash]
            print(f'{i} => hash: {_keyhash: >20}, latest_id: {_id}')

db = DataBase()
db.insert({'priceA': 5000})
db.insert({'priceB': 4000})
db.insert({'priceA': 3000})
db.insert({'priceA': 5000})
db.insert({'priceA': 7000})

print('### print_all_datas ###')
db.print_all_datas()

print('### print_all_indexes ###')
db.print_all_indexes()
```

## 実行結果
```log
### print_all_datas ###
0 => id: 498a2423-8f65-42ac-90f7-d2e321f8b1ec, index: 689e09cb-dadd-4cb7-ad69-a6377c4a362f, hash:  -261320819014024164, seed: ('priceA',), data: {'priceA': 5000}
1 => id: daaa98fb-cba8-4dbd-9299-172754780f01, index: daaa98fb-cba8-4dbd-9299-172754780f01, hash:  4814718565598271203, seed: ('priceB',), data: {'priceB': 4000}
2 => id: c0422535-cdae-4b92-a22a-09cf98dd928f, index: 689e09cb-dadd-4cb7-ad69-a6377c4a362f, hash:  -261320819014024164, seed: ('priceA',), data: {'priceA': 3000}
3 => id: cf0d74f1-752f-43a6-898c-292c276d9bb3, index: 689e09cb-dadd-4cb7-ad69-a6377c4a362f, hash:  -261320819014024164, seed: ('priceA',), data: {'priceA': 5000}
4 => id: 689e09cb-dadd-4cb7-ad69-a6377c4a362f, index: 689e09cb-dadd-4cb7-ad69-a6377c4a362f, hash:  -261320819014024164, seed: ('priceA',), data: {'priceA': 7000}
### print_all_indexes ###
0 => hash:  -261320819014024164, latest_id: 689e09cb-dadd-4cb7-ad69-a6377c4a362f
1 => hash:  4814718565598271203, latest_id: daaa98fb-cba8-4dbd-9299-172754780f01
```

## 検証結果から分かる事
- 登録したデータは重複キーも含めて全てユニークに持っている（UUIDをユニークキーとしている）
- indexには、最新データを持つユニークキーの一覧が入っている
- 各登録データは、hashを使ったデータキーによるアクセスをする事で、indexに入っている最新のユニークキーが事に気づける。クライアントとしては**自分のユニークキーとは違う**と気づける
- 今回の掲載コードにはありませんが、hashが一致しなければ更新させないといった**楽観的ロックの仕掛け**と見る事も出来そうですね


以上です。長文失礼しました。

Answer

`tuple(data)`は辞書のキーだけのタプルなので、値が違っていてもキーが同じなら`hash(tuple(data))`は等しくなります。
```python
d1 = {'a': 1, 'b': 10}
d2 = {'a': 100, 'b': 100}

print(hash(tuple(d1)) == hash(tuple(d2)))
# True
```

なので、`hash(tuple(data))`を使ってキーが同じもの(型とかスキーマとかみたいなイメージ)を、まとめて扱おうとしていると推察されます。

```python
    def insert(self,
               data: Dict[str, int]) -> None:

        keyhash = hash(tuple(data))
        _id = uuid.uuid4()
        self._data[_id] = data
        self._index[keyhash] = _id
```
全てのdataにUUIDを振って `self._data` に保存して、
同じキーを持つものの最後にinsertされたものを `self._index` に保存しているように見えます。
なので、単純に紐付けをしているのではないです。

> データを直接、リストや辞書オブジェクトに格納して管理するのでなく、
> わざわざ ①ハッシュ値とUUID、②UUIDと対象データ、という異なる辞書に格納し、
> ①②をUUIDで紐づけることでどんな良いことがあるのか。

メリットについては、検索とかの他の機能でそれをどう使っているか次第ですね。
(参考元のコードは全部追えていません)

わからないこと

★初期回答

UUIDについて

ハッシュ化について

蛇足

参考

★追加検証分

検証コード

実行結果

検証結果から分かる事

関連した質問