質問編集履歴
8
文章修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -34,6 +34,8 @@
|
|
34
34
|
|
35
35
|
・何を基準に精度をシグモイドで精度を上げているのかわかりません。
|
36
36
|
|
37
|
+
・GAN-CLSとの違いも知りたいです。
|
38
|
+
|
37
39
|
|
38
40
|
|
39
41
|
読んでもよく意味が分からないので教えて頂けますか。
|
7
質問文修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -10,7 +10,7 @@
|
|
10
10
|
|
11
11
|
ここで紹介されているネットワークアーキテクチャーですが、
|
12
12
|
|
13
|
-
ここではテキストから画像生成するモデルとしてDC-GANが紹介されています。
|
13
|
+
ここではテキストから画像生成する最初のモデルとしてDC-GANが紹介されています。
|
14
14
|
|
15
15
|
画像を書きに示します。
|
16
16
|
|
@@ -18,78 +18,24 @@
|
|
18
18
|
|
19
19
|
|
20
20
|
|
21
|
-
ここで
|
21
|
+
ここで
|
22
22
|
|
23
|
-
GAN
|
23
|
+
DC-GANのモデルでこの認識器Dが行っている仕事内容がわからないので、
|
24
24
|
|
25
|
-
|
25
|
+
教えてほしいです。
|
26
26
|
|
27
|
-
|
27
|
+
・Dではテキストに対する画像の精度を見ているのでしょうか。
|
28
28
|
|
29
|
+
特に説明では、正解の説明文は与えているが、
|
30
|
+
|
29
|
-
|
31
|
+
正解画像を与えているようなことは記載されていません。
|
30
32
|
|
31
33
|
|
32
34
|
|
33
|
-
本DC-GANのモデルでは、
|
34
|
-
|
35
|
-
|
35
|
+
・何を基準に精度をシグモイドで精度を上げているのかわかりません。
|
36
36
|
|
37
37
|
|
38
38
|
|
39
|
-
<画像生成(G)>
|
40
|
-
|
41
|
-
テキストをRNNなどを使用してエンコードする
|
42
|
-
|
43
|
-
↓
|
44
|
-
|
45
|
-
コンコードされたデータに対して
|
46
|
-
|
47
|
-
Leaky-reluを使用して低圧縮する
|
48
|
-
|
49
|
-
↓
|
50
|
-
|
51
|
-
|
39
|
+
読んでもよく意味が分からないので教えて頂けますか。
|
52
|
-
|
53
|
-
↓
|
54
|
-
|
55
|
-
画像を生成する
|
56
|
-
|
57
|
-
|
58
|
-
|
59
|
-
<認識判断(D)>
|
60
|
-
|
61
|
-
生成された画像を入力として受け取る
|
62
|
-
|
63
|
-
↓
|
64
|
-
|
65
|
-
4×4の大きさになるまで畳み込み層とスライド層(stride:2)で計算を行う
|
66
|
-
|
67
|
-
↓
|
68
|
-
|
69
|
-
エンコードされたテキストφ(t)を画像と結合して、線形結合層を使用し圧縮を行う
|
70
|
-
|
71
|
-
↓
|
72
|
-
|
73
|
-
Dで出力する画像の特徴量である4×4で複製を行う
|
74
|
-
|
75
|
-
↓
|
76
|
-
|
77
|
-
1×1畳み込みを使用して特徴量を圧縮
|
78
|
-
|
79
|
-
↓
|
80
|
-
|
81
|
-
4×4畳み込み層を使用して確立を出力
|
82
|
-
|
83
|
-
|
84
|
-
|
85
|
-
と説明がありました。
|
86
|
-
|
87
|
-
|
88
|
-
|
89
|
-
DC-GANでは正解データを使うという概念がそもそもないのか知りたいです。
|
90
|
-
|
91
|
-
それとDC-GANの重みの更新がどのように行われているのか知りたいです。
|
92
|
-
|
93
|
-
|
94
40
|
|
95
41
|
よろしくお願い致します。
|
6
修正
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
GAN
|
1
|
+
DC-GANについて教えて下さい
|
test
CHANGED
@@ -1,6 +1,4 @@
|
|
1
|
-
GAN
|
1
|
+
DC-GANについて知りたいです。
|
2
|
-
|
3
|
-
下記の理解で正しいか教えていただけると大変助かります。
|
4
2
|
|
5
3
|
|
6
4
|
|
@@ -10,54 +8,88 @@
|
|
10
8
|
|
11
9
|
|
12
10
|
|
13
|
-
|
11
|
+
ここで紹介されているネットワークアーキテクチャーですが、
|
14
12
|
|
15
|
-
|
13
|
+
ここではテキストから画像生成するモデルとしてDC-GANが紹介されています。
|
16
14
|
|
17
|
-
|
15
|
+
画像を書きに示します。
|
18
16
|
|
19
|
-
|
17
|
+
![イメージ説明](3a59f6594963eda5305fca13b48fa729.png)
|
20
18
|
|
21
19
|
|
22
20
|
|
21
|
+
ここでよくわからないですが、
|
22
|
+
|
23
|
+
GANと言えば
|
24
|
+
|
25
|
+
正解があってその正解に近づけるように画像を生成する
|
26
|
+
|
27
|
+
正解と生成されたものを見分けられるように識別器を学習させる
|
28
|
+
|
29
|
+
と2つのネットワークが学習し合い精度の高い画像を生成すると勉強しましたが、
|
23
30
|
|
24
31
|
|
25
32
|
|
33
|
+
本DC-GANのモデルでは、
|
26
34
|
|
27
|
-
|
35
|
+
正解画像を用いずに、下記の手順に沿って画像を生成すると表記されています。
|
28
|
-
|
29
|
-
Gにて任意の文章で作成された画像
|
30
|
-
|
31
|
-
と
|
32
|
-
|
33
|
-
説明文が一致した正解の画像で
|
34
|
-
|
35
|
-
一致するかどうかをみている
|
36
36
|
|
37
37
|
|
38
38
|
|
39
|
+
<画像生成(G)>
|
40
|
+
|
41
|
+
テキストをRNNなどを使用してエンコードする
|
42
|
+
|
43
|
+
↓
|
44
|
+
|
45
|
+
コンコードされたデータに対して
|
46
|
+
|
39
|
-
|
47
|
+
Leaky-reluを使用して低圧縮する
|
48
|
+
|
49
|
+
↓
|
50
|
+
|
51
|
+
別入力であるノイズZと結合させてGANげ入力する
|
52
|
+
|
53
|
+
↓
|
54
|
+
|
55
|
+
画像を生成する
|
40
56
|
|
41
57
|
|
42
58
|
|
43
|
-
|
59
|
+
<認識判断(D)>
|
44
60
|
|
45
|
-
|
61
|
+
生成された画像を入力として受け取る
|
46
62
|
|
47
|
-
|
63
|
+
↓
|
48
64
|
|
49
|
-
|
65
|
+
4×4の大きさになるまで畳み込み層とスライド層(stride:2)で計算を行う
|
50
66
|
|
67
|
+
↓
|
68
|
+
|
69
|
+
エンコードされたテキストφ(t)を画像と結合して、線形結合層を使用し圧縮を行う
|
70
|
+
|
71
|
+
↓
|
72
|
+
|
73
|
+
Dで出力する画像の特徴量である4×4で複製を行う
|
74
|
+
|
75
|
+
↓
|
76
|
+
|
77
|
+
1×1畳み込みを使用して特徴量を圧縮
|
78
|
+
|
79
|
+
↓
|
80
|
+
|
51
|
-
|
81
|
+
4×4畳み込み層を使用して確立を出力
|
52
82
|
|
53
83
|
|
54
84
|
|
55
|
-
|
85
|
+
と説明がありました。
|
56
|
-
|
57
|
-
![イメージ説明](116f0259651f04892e14356fe02672ae.png)
|
58
86
|
|
59
87
|
|
60
88
|
|
89
|
+
DC-GANでは正解データを使うという概念がそもそもないのか知りたいです。
|
90
|
+
|
91
|
+
それとDC-GANの重みの更新がどのように行われているのか知りたいです。
|
61
92
|
|
62
93
|
|
94
|
+
|
63
|
-
|
95
|
+
よろしくお願い致します。
|
5
画像を修正しました
test
CHANGED
File without changes
|
test
CHANGED
@@ -54,7 +54,7 @@
|
|
54
54
|
|
55
55
|
図で記載すると下記のような理解なのですが、
|
56
56
|
|
57
|
-
![イメージ説明](10
|
57
|
+
![イメージ説明](116f0259651f04892e14356fe02672ae.png)
|
58
58
|
|
59
59
|
|
60
60
|
|
4
質問を修正しました。
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
GAN-CLS
|
1
|
+
GAN-CLSについて理解が正しいか教えて下さい。
|
test
CHANGED
@@ -12,19 +12,15 @@
|
|
12
12
|
|
13
13
|
Generator Network(G)で行っていること
|
14
14
|
|
15
|
-
任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされ
|
15
|
+
任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされる
|
16
16
|
|
17
|
+
そこから画像に一致した文章がエンコーディングされたφと
|
18
|
+
|
17
|
-
|
19
|
+
画像生成用の乱数のノイズ(z~N(0,1))を加えてφ(t)としてGに入力され画像を生成させる。
|
18
20
|
|
19
21
|
|
20
22
|
|
21
23
|
|
22
|
-
|
23
|
-
|
24
|
-
|
25
|
-
![イメージ説明](c3e3ecd18878b9ceb67a433e301351f3.png)
|
26
|
-
|
27
|
-
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
28
24
|
|
29
25
|
|
30
26
|
|
@@ -36,7 +32,9 @@
|
|
36
32
|
|
37
33
|
説明文が一致した正解の画像で
|
38
34
|
|
39
|
-
一致するかどうかをみて
|
35
|
+
一致するかどうかをみている
|
36
|
+
|
37
|
+
|
40
38
|
|
41
39
|
本物か偽物かの判断をしている
|
42
40
|
|
@@ -54,4 +52,12 @@
|
|
54
52
|
|
55
53
|
|
56
54
|
|
55
|
+
図で記載すると下記のような理解なのですが、
|
56
|
+
|
57
|
+
![イメージ説明](10c724772a2a21b2aaea571b882cb3c1.png)
|
58
|
+
|
59
|
+
|
60
|
+
|
61
|
+
|
62
|
+
|
57
63
|
この様な理解でよろしいでしょうか。
|
3
質問の内容が間違えていたのを修正した。
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
|
1
|
+
GAN-CLS Textをimageにするメカニズムについて質問させてください。
|
test
CHANGED
@@ -1,4 +1,4 @@
|
|
1
|
-
|
1
|
+
GAN-CLSについて勉強しています。
|
2
2
|
|
3
3
|
下記の理解で正しいか教えていただけると大変助かります。
|
4
4
|
|
@@ -12,13 +12,13 @@
|
|
12
12
|
|
13
13
|
Generator Network(G)で行っていること
|
14
14
|
|
15
|
-
|
15
|
+
任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされたものがφである
|
16
16
|
|
17
|
-
ノイズ(
|
17
|
+
φに画像生成用の乱数のノイズ(z~N(0,1))を加えてφ(t)としてGに入力され画像を生成させる。
|
18
18
|
|
19
|
-
GANでは通常ノイズ(潜在変数)から画像を生成するが、
|
20
19
|
|
21
|
-
|
20
|
+
|
21
|
+
|
22
22
|
|
23
23
|
|
24
24
|
|
@@ -54,12 +54,4 @@
|
|
54
54
|
|
55
55
|
|
56
56
|
|
57
|
-
|
58
|
-
|
59
|
-
![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
|
60
|
-
|
61
|
-
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
62
|
-
|
63
|
-
|
64
|
-
|
65
57
|
この様な理解でよろしいでしょうか。
|
2
質問文修正
test
CHANGED
File without changes
|
test
CHANGED
@@ -24,7 +24,7 @@
|
|
24
24
|
|
25
25
|
![イメージ説明](c3e3ecd18878b9ceb67a433e301351f3.png)
|
26
26
|
|
27
|
-
画像は
|
27
|
+
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
28
28
|
|
29
29
|
|
30
30
|
|
@@ -58,7 +58,7 @@
|
|
58
58
|
|
59
59
|
![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
|
60
60
|
|
61
|
-
画像は
|
61
|
+
画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
62
62
|
|
63
63
|
|
64
64
|
|
1
質問の内容を修正しました。
test
CHANGED
File without changes
|
test
CHANGED
@@ -30,13 +30,33 @@
|
|
30
30
|
|
31
31
|
Discriminator Network(D)で行っていること
|
32
32
|
|
33
|
-
|
33
|
+
Gにて任意の文章で作成された画像
|
34
|
+
|
35
|
+
と
|
36
|
+
|
37
|
+
説明文が一致した正解の画像で
|
38
|
+
|
39
|
+
一致するかどうかをみており
|
34
40
|
|
35
41
|
本物か偽物かの判断をしている
|
36
42
|
|
37
43
|
|
38
44
|
|
45
|
+
本物の画像 と 本物の文章 本物と判断
|
46
|
+
|
47
|
+
本物の画像 と 間違えた文章 偽物と判断
|
48
|
+
|
49
|
+
偽物の画像 と 間違えた文章 偽物のと判断
|
50
|
+
|
51
|
+
偽物の画像 と 本物の文章 偽物と判断
|
52
|
+
|
53
|
+
上記の項目に従って学習している
|
54
|
+
|
55
|
+
|
56
|
+
|
57
|
+
|
58
|
+
|
39
|
-
![イメージ説明](
|
59
|
+
![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
|
40
60
|
|
41
61
|
画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
|
42
62
|
|