回答編集履歴

1

ハッシュについて

2021/09/11 19:11

投稿

nobonobo
nobonobo

スコア3367

test CHANGED
@@ -163,3 +163,51 @@
163
163
 
164
164
 
165
165
  ```
166
+
167
+
168
+
169
+ # ハッシュについて
170
+
171
+
172
+
173
+ Gitのコミットハッシュはご存じですか?
174
+
175
+ ある「ハッシュ値」はリポジトリに「過去のすべての積み上げられた変更の履歴」の「一意性」を天文学的な確率で保証するものです。
176
+
177
+
178
+
179
+ つまりコミットハッシュは大まかに以下の手順で作られます
180
+
181
+ - ファイル名でソートされた初期投入コードのテキストを
182
+
183
+ - その後は変更差分を
184
+
185
+ - 順番を守って
186
+
187
+ - ハッシュ計算を積み上げたもの
188
+
189
+
190
+
191
+ つまりある「ハッシュ値」は最終的なソースコードセットの状態が「一意」であることが期待できるということです。
192
+
193
+
194
+
195
+ そして、ある別のソースと履歴をハッシュ値に計算した結果が同じ「ハッシュ値」になることを「コンフリクト」といいます。
196
+
197
+
198
+
199
+ ハッシュアルゴリズムはこの「コンフリクト」を意図的に起こすのを困難にすることを目標に改良されてきました。実際に古いハッシュアルゴリズムではコンフリクトする複数のデータ列が発見されたりしています。最新のハッシュアルゴリズムにもコンフリクトを起こすデータ列がきっとあるだろうと探すような研究を行っているところもあります。
200
+
201
+
202
+
203
+ 要するに、「一定のオーダーで一定の長さのデータ列Aに対し計算されたハッシュ値」は
204
+
205
+ 別のところで「一定のオーダーで一定の長さのデータ列Bに対し計算されたハッシュ値」と一致するとき、「データ列Aとデータ列Bは同じであることがほぼほぼ保証される」ということです。
206
+
207
+
208
+
209
+ つまり離れた場所でデータ列そのものを送らなくてもハッシュだけ送って元データが同じかどうか比較できるのが「ハッシュ」です。
210
+
211
+
212
+
213
+ 元のコードではハッシュ積算用のインスタンス一つにあるデータ列を投入しこの時点のハッシュ値Aと、さらにそのデータ列のオーダーを入れ替えたものを投入した結果のハッシュ値Bを比較しようとしています。これはGitハッシュでいうと変更を積み上げた前と後のソースコードセットを比較しているようなものなのでハッシュが異なるのは自然というか当たり前なのです。