HashSetとは
インタフェースSetの具象クラスの1つです。Setは数学でいうところの「集合」を表します。同じ要素(equalsで等しいと判定されるもの同士およびnull同士)は1つのSetに1つしか入れません。これを実現するため、Setに新たな要素を挿入しようとする際は、同じ要素が入っていないかのチェックが必要になります。
普通に配列などに順番に入れて管理した場合
さて、Setの内部で、仮に配列に順番に要素を詰めていったらどうなるでしょう。
新たに要素をSetに入れる際、同じ要素が入ってないかチェックするためには、
今入っているすべての要素と比較して、そのすべてと等しくないことを確認するほかありません。
入っている要素が数個なら大して問題ではないでしょうが、これが100個とか1000個とかになると大変です。
格納の仕方を工夫
ではどうするかというと、配列を使うことには変わりません。
例えば整数(Integer)の要素を格納しようということを考えます。
例えば「6」という整数は、配列の「6番目」に格納する、といった具合にルールを決めます。
そうすれば、あとから「6」を挿入しようとする際、「6番目」にその要素が入っているかどうかさえチェックすればいいということになります。「6」は「6番目」以外に入る可能性はないのですから、それ以外を探しても意味がないということです。
実際は10000など大きな数を格納する際に、配列を10000以上のサイズにしたりはせず、その数字に何らかの手を加えて格納する場所を決定します。例えば「10で割った余り」にするなどで。
重要なのは、数とルールが決まれば、ある要素が配列内に入る場所は一意に決まるということです。
実際には同じ場所に格納しようとする複数の要素が発生する(シノニム)のですが、その対処法はここでは割愛します(基本情報技術者試験にも出てくる話です)。
一般のオブジェクトについて
先の例では整数を扱っていたため、整数をそのまま配列の場所として扱えましたが、そのほかほとんどの一般のオブジェクトではそのままでは通用しません。裏を返せば、
一般のオブジェクトについても、一意な整数に変換できれば同じように使える
というわけです。この「一意な整数に変換する」メソッドがhashCode()
なのです。
HashSetは要素を挿入しようとするとき、格納場所をhashCode()
の返り値から決定し、存在を確認するのです。
hashCode()
をオーバーライドしなかった場合
hashCode()
がequals()
と連動しない結果を返すと、HashSetは正しく動作できないのです。equals()
で等しいとされる2つのオブジェクトAとBが異なるhashCode()
を返した場合、
- まずAを空のSetに入れようとする。Aの
hashCode()
から格納場所がaと計算される。
もちろんaには何もないのでAはSetに入る。
- 次にBを同じSetに入れようとする。Bの
hashCode()
から格納場所がbと計算される。
**bには何もない(Aが入った場所とは異なるため)**ので、BはSetに入る
というように、1つのSetに等しい要素が2つ入ってしまい、仕様を満たせなくなってしまいます。
デフォルトのhashCode()
が、(雑に説明するなら)コンピュータがオブジェクトごとに割り振った数値を返す仕組みなので、このような事態が起きえます。
ということで
書籍に書いてあったという
equalsはhashCode()を使用するので同様にオーバーライドする必要がある
というのは少なくともそのままの意味としては誤りです。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2018/06/10 22:50