離散コサイン変換とimagehashについて

Question

```python
コード
def phash(image, hash_size=8, highfreq_factor=4):
	"""
	Perceptual Hash computation.

	Implementation follows http://www.hackerfactor.com/blog/index.php?/archives/432-Looks-Like-It.html

	@image must be a PIL instance.
	"""
	import scipy.fftpack
	img_size = hash_size * highfreq_factor
	image = image.convert("L").resize((img_size, img_size), Image.ANTIALIAS)
	pixels = numpy.array(image.getdata(), dtype=numpy.float).reshape((img_size, img_size))
	dct = scipy.fftpack.dct(scipy.fftpack.dct(pixels, axis=0), axis=1)
	dctlowfreq = dct[:hash_size, :hash_size]
	med = numpy.median(dctlowfreq)
	diff = dctlowfreq > med
	return ImageHash(diff)

```以前もimagehashについて質問したのですが、
・なぜ離散コサイン変換を使うとガンマ補正やヒストグラム補正がかかっている画像でも似たような画像と認識できるのか(Average hash)では異なる画像と認識されてしまうのか

・Average hashでは8x8に縮小していたのにphashでは32×32に縮小していました。DCTを行うには良い大きさらしいですがそれは何故ですか？

・imagehashのphashのアルゴリズム5.の平均値を計算するという所で、『最初の項は除去する』と書いてあるのですがそれはどういうことなのでしょうか？最初の行だけという意味で合ってますかね？

Accepted Answer

> ・なぜ離散コサイン変換を使うとガンマ補正やヒストグラム補正がかかっている画像でも似たような画像と認識できるのか(Average hash)では異なる画像と認識されてしまうのか 

[`average_hash`](https://github.com/JohannesBuchner/imagehash/blob/master/imagehash/__init__.py#L132)では文字通りピクセル平均値(`mean()`)を基準値に用いるため、ガンマ補正やヒストグラム補正などの画面全体のピクセル値分布を歪める操作に対してロバストでない、つまりそのような操作によってハッシュ値が大きく変化してしまいます。

一方の[`phash`](https://github.com/JohannesBuchner/imagehash/blob/master/imagehash/__init__.py#L157)では、離散コサイン変換(DCT)によって得られる係数値の中央値(`median`)を基準値として用います。

DCTを理解している前提での説明：ガンマ補正やヒストグラム補正といった全体的なピクセル値操作をおこなっても、画像データが持つ空間的な構造／情報は維持されるため、DCT係数の大部分を占めるAC係数の分布はあまり変化しません。（※:詳細後述しますが、このPython実装には問題があるように思えます）

DCTをかなり乱暴に説明すると、1次元8点DCTは「1個の平均値(直流成分;DC)」＋「7個のデータ"詳細度"＝周波数別に分解された値(交流成分;AC)」への変換です。画像は2次元データですからそれぞれ縦／方向に適用すると2次元8x8点DCTとなり、「1個の平均値(DC)」＋「63個のAC値」となります。ガンマ補正やヒストグラム補正はピクセル値を一律で変化させるためDC値に強く影響しますが、AC値はデータがもっている空間的な構造情報（＝周波数）に対応するため、そのような変換では値が変化しずらいという性質があります。

---

> ・Average hashでは8x8に縮小していたのにphashでは32×32に縮小していました。DCTを行うには良い大きさらしいですがそれは何故ですか？

ドキュメントの誤読です。DCT処理にとって好都合というわけではなく、32x32DCT係数のうち低周波数側8x8個の係数だけを拾ってくると、画像の低周波情報＝おおまかな空間構造をバランスよく捉えられると言っています。なおDCTの計算都合だけでいえば、2のベキ乗ならばOKです。

---
> ・imagehashのphashのアルゴリズム5.の平均値を計算するという所で、『最初の項は除去する』と書いてあるのですがそれはどういうことなのでしょうか？

DCT係数のDC成分を除去するのが目的です。計算式上、最初の項はDC成分係数になります。

> 最初の行だけという意味で合ってますかね？

オリジナルのpHash実装では、2次元DCT係数の **第1行目および第1列目をすべて除去** しているようです。一方、Python imagehashの`phash`ではこの処理を **全く適用しておらず**、DC係数も含めてハッシュ計算を行なっています。本来のアルゴリズム意図からすれば、imagehash実装が誤っているようにも思えます。

関連した質問