やったこと
Chainerユーザーです。Chainerを使ってVAEを実装しました。参考にしたURLは
・Variational Autoencoder徹底解説
・AutoEncoder, VAE, CVAEの比較
・PyTorch+Google ColabでVariational Auto Encoderをやってみた
などです。実装したコードのコアになる部分は以下の通りです。
python3
1class VAE(chainer.Chain): 2 3 def __init__(self, n_in, n_latent, n_h, act_func=F.tanh): 4 super(VAE, self).__init__() 5 self.act_func = act_func 6 with self.init_scope(): 7 # encoder 8 self.le1 = L.Linear(n_in, n_h) 9 self.le2 = L.Linear(n_h, n_h) 10 self.le3_mu = L.Linear(n_h, n_latent) 11 self.le3_ln_var = L.Linear(n_h, n_latent) 12 13 # decoder 14 self.ld1 = L.Linear(n_latent, n_h) 15 self.ld2 = L.Linear(n_h, n_h) 16 self.ld3 = L.Linear(n_h, n_in) 17 18 def __call__(self, x, sigmoid=True): 19 return self.decode(self.encode(x)[0], sigmoid) 20 21 def encode(self, x): 22 h1 = self.act_func(self.le1(x)) 23 h2 = self.act_func(self.le2(h1)) 24 mu = self.le3_mu(h2) 25 ln_var = self.le3_ln_var(h2) 26 return mu, ln_var 27 28 def decode(self, z, sigmoid=True): 29 h1 = self.act_func(self.ld1(z)) 30 h2 = self.act_func(self.ld2(h1)) 31 h3 = self.ld3(h2) 32 if sigmoid: 33 return F.sigmoid(h3) 34 else: 35 return h3 36 37 def get_loss_func(self, C=1.0, k=1): 38 def lf(x): 39 mu, ln_var = self.encode(x) 40 batchsize = len(mu.data) 41 # reconstruction error 42 rec_loss = 0 43 for l in six.moves.range(k): 44 z = F.gaussian(mu, ln_var) 45 z.name = "z" 46 rec_loss += F.bernoulli_nll(x, self.decode(z, sigmoid=False)) / (k * batchsize) 47 self.rec_loss = rec_loss 48 self.rec_loss.name = "reconstruction error" 49 self.latent_loss = C * gaussian_kl_divergence(mu, ln_var) / batchsize 50 self..name = "latent loss" 51 self.loss = self.rec_loss + self.latent_loss 52 self.loss.name = "loss" 53 return self.loss 54 return lf
rec_lossは再構成誤差、すなわち入力と出力がどの程度等しいかを表していて、latent_lossの方は特徴量空間における分布が正規分布からどれくらいことなるを表す誤差だと認識しています。
MNISTで実験してみた結果、
1.lossが減少していく
2.再構成がちゃんと行われる(input画像が3なら、output画像も3になっている)
3.特徴量空間でランダムサンプリングを行った結果、ちゃんと数字が出力される。
などが確かめられました。
疑問
ところで、疑問なのですが、rec_lossは再構成誤差なので、素朴には平均二乗誤差をつかうのが自然だと思われます。そこでrec_lossの部分を
python3
1rec_loss += F.mean_squared_error(x, self.decode(z)) / k
と書き換え、ほかの条件は全部そのままで(他の部分は一切書き換えずに)、実験すると
- rec_lossが2epoch目以降、全く減少しない。
- 再構成が行われない。適当なinputを与えても、意味のないoutput画像が得られる。(ちなみにinput画像の種類によらずoutput画像は一定のようです)
などの結果が得られて、学習がうまくいっていっていないようです。
これはなぜでしょうか。
追記1
bernoulli_nllはデフォルトではすべて合計する一方で、mean_squared_errorは二乗誤差をバッチとピクセルの両方で平均するので、再構成項が過小評価されてしまっているかもしれないと考えました。
MNSITは28×28の画像なので、MSEを用いる際には28×28×F.mean_squared_error(x, decode(z))とすれば良いと思い、試してみましたが結果は変わりませんでした。
追記2
chainerでMSEを使ったVAEの実装を行っているコードを見つけました。
(https://github.com/maguro27/VAE-CIFAR10_chainer/blob/master/VAE_CIFAR10.ipynb)
なぜ、このコードでは動いて、私の上のコードでは学習がうまくいかないのでしょうか。
追記3
optimizerの問題ではないかとの指摘を受けて、Adam,AdaDelta,SGDで試しましたが結果は変わらず…
解決策?
passerbyさんに言われた通り、
python3
1rec_loss += F.mean_squared_error(x, self.decode(z)) / k
を
python3
1rec_loss += F.mean(F.sum((x - self.decode(z)) ** 2, axis=1))
に変えるとうまくいきます。でもなぜだ…?

回答1件
あなたの回答
tips
プレビュー