質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.02%
深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

解決済

深層学習における相互情報量の理解

1236
1236

総合スコア19

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

1回答

0グッド

0クリップ

556閲覧

投稿2021/06/17 08:05

前提・実現したいこと

Deep semi-supervised Anomaly Detection(Deep SAD)の論文を読んでいて、情報理論の考え方がイメージできなかったので質問します。
(本質問はDeep SADの理解を必要としません。)

質問まとめ
・(X,Z)の相互情報量が小さいとはどういう状態か、(X,Z)の相互情報量が大きいとはどういう状態か
・(Z,Y)の相互情報量が小さいとはどういう状態か、(Z,Y)の相互情報量が大きいとはどういう状態か
・H(X|Z)がH(X)より小さくなるのはなぜか
・「オートエンコーダは再構成誤差を介して暗黙のうちに相互情報量I(X;Z)を最大化している」とはどういうことか
・「相互情報量の最適化とエントロピーの最適化は矛盾している」とはどういうことか

1つでもよいので回答いただきたいです。

発生している問題

上記論文から抜粋

[教師ありの場合]
表現学習の説明を、ラベルYを予測するための潜在変数Z(例えば深層ネットワークの最終層)の有益性を維持しながら、入力Xの最小圧縮Zを見つけることの間のトレードオフとして提供する。形式的に言えば、教師付き深層学習は、入力Xと潜在表現Zの間の相互情報I(X;Z)を最小化する一方で、Zと分類タスクYの間の相互情報I(Z;Y)を最大化することを求める。
![イメージ説明

ここで、(X,Z)の相互情報量が小さいとはどういう状態か、(X,Z)の相互情報量が大きいとはどういう状態かのイメージがつかめないので教えてほしいです。
また、(Z,Y)の相互情報量についても教えていただきたいです。

相互情報量については以下のような認識です。
相互情報量 = 不確実性(情報エントロピー)の減少量
I(B;C) = 元のBの不確実性 - Cが分かった後のBの不確実性
= H(B) - H(B|C)

例として、H(B)はルーレットの出目が1~10という不確実性
H(C)は出目が偶数という不確実性
H(B|C)は出目が偶数と分かったうえでのBの不確実性(出目は2,4,6,8,10)

以下上記疑問点の私の理解です。

I(X;Z)が最小ということはH(X) - H(X|Z)が最小で、Zがわかった後もXの不確実性(H(X|Z))は変わらないということは、Zに有益な情報が含まれていない、つまりZがコンパクトな表現(次元削減)になっている。

I(Z;Y)が最大ということはH(Z) - H(Z|Y)が最大で、もともとH(Z)は不確実性が大きく、ラベルYを知った後のZの不確実性(H(Z|Y))が小さくなるつまりラベルYと潜在変数Zの結びつきを強くしているというようなイメージです。(潜在変数にラベル情報を付加している。)

[教師なしの場合]
ラベルYがないために明確なタスクがないことから、他の情報理論的な学習原理が提唱されています。これらのうち、情報量最大化の原理は最も普及し、広く使われている原則の一つです。(1)とは対照的に、情報量最大化の目的は、データXとその潜在的表現Zの間の相互情報I(X;Z)を最大化することです。これは通常、特定の下流タスクに必要な統計的特性を得るために、追加の制約やハイパーパラメータβ>0を用いた表現Zの正則化R(Z)の下で行われる。
イメージ説明

以下私の疑問点です。

I(X;Z)が最大ということはH(X) - H(X|Z)が最大で、潜在変数Zを知った後の入力Xの不確実性(H(X|Z))が小さい(Zに有益な情報が含まれている、つまりZがコンパクトな表現ではない)。
Zをコンパクトな表現にするために正則化で制御している。

ここで、潜在変数Zというのは入力Xから発生するものであるのに、潜在変数Zを知った後の入力Xの不確実性(H(X|Z))がもとの入力Xの不確実性(H(X))より小さくのがイメージできません。Zを知ってもそれはXからのものであるから情報の価値はあまりないのではと直感的に感じます。

また、「オートエンコーダは再構成誤差を介して暗黙のうちに相互情報量I(X;Z)を最大化している」とあったのですが、これもイメージができないです。また、再構成誤差は入力Xと出力X'とのL2ノルムですがX'をZと考えているのでしょうか?

以下最後の疑問点になります。
[Deep SADの場合]
イメージ説明
H(Z-)はラベル付き異常データのエントロピー、H(Z+)は正常データのエントロピーです。正常は集まって、異常はばらばらにするというイメージです。

ここで「相互情報量の最適化とエントロピーの最適化は矛盾している」とあったのですがこれも理解できなかったので教えていただきたいです。

以下のような質問にはグッドを送りましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

グッドが多くついた質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

回答1

0

ベストアンサー

最初の2つの質問に回答します。

(X,Z)の相互情報量が小さいとはどういう状態か、(X,Z)の相互情報量が大きいとはどういう状態か

Wikipediaによると、「直観的には、相互情報量は2つの確率変数が共有する情報量の尺度である。」とあります。よって、(X,Z)の相互情報量が小さいとは、XとZの独立性が強いということ、すなわちXとZとで共通的な情報があまり無いということです。(X,Z)の相互情報量が大きいとは、(X,Z)の従属性が強いということ、すなわちXとZとで共通的な情報が多く含まれているということです。

(Z,Y)の相互情報量が小さいとはどういう状態か、(Z,Y)の相互情報量が大きいとはどういう状態か

上記と同様ですが、2つあわせると今回の「(X,Z)の相互情報量を最小化しつつ、(Z,Y)の相互情報量を最大化する」とは、「XをもとにしてYを求める上で無駄な情報は極力減らしつつ必要な情報は極力維持したものをZとする」ということです。すなわち、ZがYを求める上でのXの効率的なエンコーダーになっている、ということです。

投稿2021/07/04 08:17

toast-uz

総合スコア3266

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.02%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

深層学習

深層学習は、多数のレイヤのニューラルネットワークによる機械学習手法。人工知能研究の一つでディープラーニングとも呼ばれています。コンピューター自体がデータの潜在的な特徴を汲み取り、効率的で的確な判断を実現することができます。

機械学習

機械学習は、データからパターンを自動的に発見し、そこから知能的な判断を下すためのコンピューターアルゴリズムを指します。人工知能における課題のひとつです。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。