深層学習における相互情報量の理解

前提・実現したいこと

Deep semi-supervised Anomaly Detection(Deep SAD)の論文を読んでいて、情報理論の考え方がイメージできなかったので質問します。
(本質問はDeep SADの理解を必要としません。)

質問まとめ
・(X,Z)の相互情報量が小さいとはどういう状態か、(X,Z)の相互情報量が大きいとはどういう状態か
・(Z,Y)の相互情報量が小さいとはどういう状態か、(Z,Y)の相互情報量が大きいとはどういう状態か
・H(X|Z)がH(X)より小さくなるのはなぜか
・「オートエンコーダは再構成誤差を介して暗黙のうちに相互情報量I(X;Z)を最大化している」とはどういうことか
・「相互情報量の最適化とエントロピーの最適化は矛盾している」とはどういうことか

1つでもよいので回答いただきたいです。

発生している問題

上記論文から抜粋

[教師ありの場合]
表現学習の説明を、ラベルYを予測するための潜在変数Z(例えば深層ネットワークの最終層)の有益性を維持しながら、入力Xの最小圧縮Zを見つけることの間のトレードオフとして提供する。形式的に言えば、教師付き深層学習は、入力Xと潜在表現Zの間の相互情報I(X;Z)を最小化する一方で、Zと分類タスクYの間の相互情報I(Z;Y)を最大化することを求める。
![

ここで、(X,Z)の相互情報量が小さいとはどういう状態か、(X,Z)の相互情報量が大きいとはどういう状態かのイメージがつかめないので教えてほしいです。
また、(Z,Y)の相互情報量についても教えていただきたいです。

相互情報量については以下のような認識です。
相互情報量 = 不確実性(情報エントロピー)の減少量
I(B;C) = 元のBの不確実性 - Cが分かった後のBの不確実性
= H(B) - H(B|C)

例として、H(B)はルーレットの出目が1~10という不確実性
H(C)は出目が偶数という不確実性
H(B|C)は出目が偶数と分かったうえでのBの不確実性(出目は2,4,6,8,10)

以下上記疑問点の私の理解です。

I(X;Z)が最小ということはH(X) - H(X|Z)が最小で、Zがわかった後もXの不確実性(H(X|Z))は変わらないということは、Zに有益な情報が含まれていない、つまりZがコンパクトな表現(次元削減)になっている。

I(Z;Y)が最大ということはH(Z) - H(Z|Y)が最大で、もともとH(Z)は不確実性が大きく、ラベルYを知った後のZの不確実性(H(Z|Y))が小さくなるつまりラベルYと潜在変数Zの結びつきを強くしているというようなイメージです。(潜在変数にラベル情報を付加している。)

[教師なしの場合]
ラベルYがないために明確なタスクがないことから、他の情報理論的な学習原理が提唱されています。これらのうち、情報量最大化の原理は最も普及し、広く使われている原則の一つです。(1)とは対照的に、情報量最大化の目的は、データXとその潜在的表現Zの間の相互情報I(X;Z)を最大化することです。これは通常、特定の下流タスクに必要な統計的特性を得るために、追加の制約やハイパーパラメータβ>0を用いた表現Zの正則化R(Z)の下で行われる。

以下私の疑問点です。

I(X;Z)が最大ということはH(X) - H(X|Z)が最大で、潜在変数Zを知った後の入力Xの不確実性(H(X|Z))が小さい(Zに有益な情報が含まれている、つまりZがコンパクトな表現ではない)。
Zをコンパクトな表現にするために正則化で制御している。

ここで、潜在変数Zというのは入力Xから発生するものであるのに、潜在変数Zを知った後の入力Xの不確実性(H(X|Z))がもとの入力Xの不確実性(H(X))より小さくのがイメージできません。Zを知ってもそれはXからのものであるから情報の価値はあまりないのではと直感的に感じます。

また、「オートエンコーダは再構成誤差を介して暗黙のうちに相互情報量I(X;Z)を最大化している」とあったのですが、これもイメージができないです。また、再構成誤差は入力Xと出力X'とのL2ノルムですがX'をZと考えているのでしょうか？

以下最後の疑問点になります。
[Deep SADの場合]

H(Z-)はラベル付き異常データのエントロピー、H(Z+)は正常データのエントロピーです。正常は集まって、異常はばらばらにするというイメージです。

ここで「相互情報量の最適化とエントロピーの最適化は矛盾している」とあったのですがこれも理解できなかったので教えていただきたいです。

行動規範の内容に同意します

回答1件

ベストアンサー

最初の2つの質問に回答します。

(X,Z)の相互情報量が小さいとはどういう状態か、(X,Z)の相互情報量が大きいとはどういう状態か

Wikipediaによると、「直観的には、相互情報量は2つの確率変数が共有する情報量の尺度である。」とあります。よって、(X,Z)の相互情報量が小さいとは、XとZの独立性が強いということ、すなわちXとZとで共通的な情報があまり無いということです。(X,Z)の相互情報量が大きいとは、(X,Z)の従属性が強いということ、すなわちXとZとで共通的な情報が多く含まれているということです。

(Z,Y)の相互情報量が小さいとはどういう状態か、(Z,Y)の相互情報量が大きいとはどういう状態か

上記と同様ですが、2つあわせると今回の「(X,Z)の相互情報量を最小化しつつ、(Z,Y)の相互情報量を最大化する」とは、「XをもとにしてYを求める上で無駄な情報は極力減らしつつ必要な情報は極力維持したものをZとする」ということです。すなわち、ZがYを求める上でのXの効率的なエンコーダーになっている、ということです。

投稿2021/07/04 08:17