質問編集履歴
8
文章修正
title
CHANGED
File without changes
|
body
CHANGED
@@ -16,6 +16,7 @@
|
|
16
16
|
正解画像を与えているようなことは記載されていません。
|
17
17
|
|
18
18
|
・何を基準に精度をシグモイドで精度を上げているのかわかりません。
|
19
|
+
・GAN-CLSとの違いも知りたいです。
|
19
20
|
|
20
21
|
読んでもよく意味が分からないので教えて頂けますか。
|
21
22
|
よろしくお願い致します。
|
7
質問文修正
title
CHANGED
File without changes
|
body
CHANGED
@@ -4,45 +4,18 @@
|
|
4
4
|
[リンク内容](https://arxiv.org/abs/1605.05396)
|
5
5
|
|
6
6
|
ここで紹介されているネットワークアーキテクチャーですが、
|
7
|
-
ここではテキストから画像生成するモデルとしてDC-GANが紹介されています。
|
7
|
+
ここではテキストから画像生成する最初のモデルとしてDC-GANが紹介されています。
|
8
8
|
画像を書きに示します。
|
9
9
|

|
10
10
|
|
11
|
+
ここで
|
12
|
+
DC-GANのモデルでこの認識器Dが行っている仕事内容がわからないので、
|
11
|
-
|
13
|
+
教えてほしいです。
|
14
|
+
・Dではテキストに対する画像の精度を見ているのでしょうか。
|
12
|
-
|
15
|
+
特に説明では、正解の説明文は与えているが、
|
13
|
-
正解
|
16
|
+
正解画像を与えているようなことは記載されていません。
|
14
|
-
正解と生成されたものを見分けられるように識別器を学習させる
|
15
|
-
と2つのネットワークが学習し合い精度の高い画像を生成すると勉強しましたが、
|
16
17
|
|
17
|
-
本DC-GANのモデルでは、
|
18
|
-
|
18
|
+
・何を基準に精度をシグモイドで精度を上げているのかわかりません。
|
19
19
|
|
20
|
-
<画像生成(G)>
|
21
|
-
テキストをRNNなどを使用してエンコードする
|
22
|
-
↓
|
23
|
-
コンコードされたデータに対して
|
24
|
-
Leaky-reluを使用して低圧縮する
|
25
|
-
↓
|
26
|
-
|
20
|
+
読んでもよく意味が分からないので教えて頂けますか。
|
27
|
-
↓
|
28
|
-
画像を生成する
|
29
|
-
|
30
|
-
<認識判断(D)>
|
31
|
-
生成された画像を入力として受け取る
|
32
|
-
↓
|
33
|
-
4×4の大きさになるまで畳み込み層とスライド層(stride:2)で計算を行う
|
34
|
-
↓
|
35
|
-
エンコードされたテキストφ(t)を画像と結合して、線形結合層を使用し圧縮を行う
|
36
|
-
↓
|
37
|
-
Dで出力する画像の特徴量である4×4で複製を行う
|
38
|
-
↓
|
39
|
-
1×1畳み込みを使用して特徴量を圧縮
|
40
|
-
↓
|
41
|
-
4×4畳み込み層を使用して確立を出力
|
42
|
-
|
43
|
-
と説明がありました。
|
44
|
-
|
45
|
-
DC-GANでは正解データを使うという概念がそもそもないのか知りたいです。
|
46
|
-
それとDC-GANの重みの更新がどのように行われているのか知りたいです。
|
47
|
-
|
48
21
|
よろしくお願い致します。
|
6
修正
title
CHANGED
@@ -1,1 +1,1 @@
|
|
1
|
-
|
1
|
+
DC-GANについて教えて下さい
|
body
CHANGED
@@ -1,32 +1,48 @@
|
|
1
|
-
GAN
|
1
|
+
DC-GANについて知りたいです。
|
2
|
-
下記の理解で正しいか教えていただけると大変助かります。
|
3
2
|
|
4
3
|
下記の論文を読んで勉強しています。
|
5
4
|
[リンク内容](https://arxiv.org/abs/1605.05396)
|
6
5
|
|
7
|
-
Generator Network(G)で行っていること
|
8
|
-
任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされる
|
9
|
-
|
6
|
+
ここで紹介されているネットワークアーキテクチャーですが、
|
7
|
+
ここではテキストから画像生成するモデルとしてDC-GANが紹介されています。
|
8
|
+
画像を書きに示します。
|
10
|
-
|
9
|
+

|
11
10
|
|
11
|
+
ここでよくわからないですが、
|
12
|
+
GANと言えば
|
13
|
+
正解があってその正解に近づけるように画像を生成する
|
14
|
+
正解と生成されたものを見分けられるように識別器を学習させる
|
15
|
+
と2つのネットワークが学習し合い精度の高い画像を生成すると勉強しましたが、
|
12
16
|
|
17
|
+
本DC-GANのモデルでは、
|
18
|
+
正解画像を用いずに、下記の手順に沿って画像を生成すると表記されています。
|
13
19
|
|
20
|
+
<画像生成(G)>
|
14
|
-
|
21
|
+
テキストをRNNなどを使用してエンコードする
|
15
|
-
Gにて任意の文章で作成された画像
|
16
|
-
|
22
|
+
↓
|
17
|
-
|
23
|
+
コンコードされたデータに対して
|
18
|
-
|
24
|
+
Leaky-reluを使用して低圧縮する
|
25
|
+
↓
|
26
|
+
別入力であるノイズZと結合させてGANげ入力する
|
27
|
+
↓
|
28
|
+
画像を生成する
|
19
29
|
|
30
|
+
<認識判断(D)>
|
20
|
-
|
31
|
+
生成された画像を入力として受け取る
|
32
|
+
↓
|
33
|
+
4×4の大きさになるまで畳み込み層とスライド層(stride:2)で計算を行う
|
34
|
+
↓
|
35
|
+
エンコードされたテキストφ(t)を画像と結合して、線形結合層を使用し圧縮を行う
|
36
|
+
↓
|
37
|
+
Dで出力する画像の特徴量である4×4で複製を行う
|
38
|
+
↓
|
39
|
+
1×1畳み込みを使用して特徴量を圧縮
|
40
|
+
↓
|
41
|
+
4×4畳み込み層を使用して確立を出力
|
21
42
|
|
22
|
-
本物の画像 と 本物の文章 本物と判断
|
23
|
-
本物の画像 と 間違えた文章 偽物と判断
|
24
|
-
偽物の画像 と 間違えた文章 偽物のと判断
|
25
|
-
偽物の画像 と 本物の文章 偽物と判断
|
26
|
-
|
43
|
+
と説明がありました。
|
27
44
|
|
45
|
+
DC-GANでは正解データを使うという概念がそもそもないのか知りたいです。
|
28
|
-
|
46
|
+
それとDC-GANの重みの更新がどのように行われているのか知りたいです。
|
29
|
-

|
30
47
|
|
31
|
-
|
32
|
-
|
48
|
+
よろしくお願い致します。
|
5
画像を修正しました
title
CHANGED
File without changes
|
body
CHANGED
@@ -26,7 +26,7 @@
|
|
26
26
|
上記の項目に従って学習している
|
27
27
|
|
28
28
|
図で記載すると下記のような理解なのですが、
|
29
|
-

|
30
30
|
|
31
31
|
|
32
32
|
この様な理解でよろしいでしょうか。
|
4
質問を修正しました。
title
CHANGED
@@ -1,1 +1,1 @@
|
|
1
|
-
GAN-CLS
|
1
|
+
GAN-CLSについて理解が正しいか教えて下さい。
|
body
CHANGED
@@ -5,19 +5,18 @@
|
|
5
5
|
[リンク内容](https://arxiv.org/abs/1605.05396)
|
6
6
|
|
7
7
|
Generator Network(G)で行っていること
|
8
|
-
任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされ
|
8
|
+
任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされる
|
9
|
+
そこから画像に一致した文章がエンコーディングされたφと
|
9
|
-
|
10
|
+
画像生成用の乱数のノイズ(z~N(0,1))を加えてφ(t)としてGに入力され画像を生成させる。
|
10
11
|
|
11
12
|
|
12
13
|
|
13
|
-

|
14
|
-
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
15
|
-
|
16
14
|
Discriminator Network(D)で行っていること
|
17
15
|
Gにて任意の文章で作成された画像
|
18
16
|
と
|
19
17
|
説明文が一致した正解の画像で
|
20
|
-
一致するかどうかをみて
|
18
|
+
一致するかどうかをみている
|
19
|
+
|
21
20
|
本物か偽物かの判断をしている
|
22
21
|
|
23
22
|
本物の画像 と 本物の文章 本物と判断
|
@@ -26,4 +25,8 @@
|
|
26
25
|
偽物の画像 と 本物の文章 偽物と判断
|
27
26
|
上記の項目に従って学習している
|
28
27
|
|
28
|
+
図で記載すると下記のような理解なのですが、
|
29
|
+

|
30
|
+
|
31
|
+
|
29
32
|
この様な理解でよろしいでしょうか。
|
3
質問の内容が間違えていたのを修正した。
title
CHANGED
@@ -1,1 +1,1 @@
|
|
1
|
-
|
1
|
+
GAN-CLS Textをimageにするメカニズムについて質問させてください。
|
body
CHANGED
@@ -1,15 +1,15 @@
|
|
1
|
-
|
1
|
+
GAN-CLSについて勉強しています。
|
2
2
|
下記の理解で正しいか教えていただけると大変助かります。
|
3
3
|
|
4
4
|
下記の論文を読んで勉強しています。
|
5
5
|
[リンク内容](https://arxiv.org/abs/1605.05396)
|
6
6
|
|
7
7
|
Generator Network(G)で行っていること
|
8
|
-
|
8
|
+
任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされたものがφである
|
9
|
-
ノイズ(
|
9
|
+
φに画像生成用の乱数のノイズ(z~N(0,1))を加えてφ(t)としてGに入力され画像を生成させる。
|
10
|
-
GANでは通常ノイズ(潜在変数)から画像を生成するが、
|
11
|
-
テキストから画像を生成する本論文では文章をエンコーディングしたφ(t)と画像生成用ノイズであるz~N(0,1)をGeneratorへINPUTして画像を生成させる
|
12
10
|
|
11
|
+
|
12
|
+
|
13
13
|

|
14
14
|
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
15
15
|
|
@@ -26,8 +26,4 @@
|
|
26
26
|
偽物の画像 と 本物の文章 偽物と判断
|
27
27
|
上記の項目に従って学習している
|
28
28
|
|
29
|
-
|
30
|
-

|
31
|
-
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
32
|
-
|
33
29
|
この様な理解でよろしいでしょうか。
|
2
質問文修正
title
CHANGED
File without changes
|
body
CHANGED
@@ -11,7 +11,7 @@
|
|
11
11
|
テキストから画像を生成する本論文では文章をエンコーディングしたφ(t)と画像生成用ノイズであるz~N(0,1)をGeneratorへINPUTして画像を生成させる
|
12
12
|
|
13
13
|

|
14
|
-
画像は
|
14
|
+
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
15
15
|
|
16
16
|
Discriminator Network(D)で行っていること
|
17
17
|
Gにて任意の文章で作成された画像
|
@@ -28,6 +28,6 @@
|
|
28
28
|
|
29
29
|
|
30
30
|

|
31
|
-
画像は
|
31
|
+
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
32
32
|
|
33
33
|
この様な理解でよろしいでしょうか。
|
1
質問の内容を修正しました。
title
CHANGED
File without changes
|
body
CHANGED
@@ -14,10 +14,20 @@
|
|
14
14
|
画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
15
15
|
|
16
16
|
Discriminator Network(D)で行っていること
|
17
|
-
|
17
|
+
Gにて任意の文章で作成された画像
|
18
|
+
と
|
19
|
+
説明文が一致した正解の画像で
|
20
|
+
一致するかどうかをみており
|
18
21
|
本物か偽物かの判断をしている
|
19
22
|
|
23
|
+
本物の画像 と 本物の文章 本物と判断
|
24
|
+
本物の画像 と 間違えた文章 偽物と判断
|
25
|
+
偽物の画像 と 間違えた文章 偽物のと判断
|
26
|
+
偽物の画像 と 本物の文章 偽物と判断
|
27
|
+
上記の項目に従って学習している
|
28
|
+
|
29
|
+
|
20
|
-

|
21
31
|
画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
22
32
|
|
23
33
|
この様な理解でよろしいでしょうか。
|