teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

8

文章修正

2021/02/09 01:51

投稿

watchdogs
watchdogs

スコア54

title CHANGED
File without changes
body CHANGED
@@ -16,6 +16,7 @@
16
16
  正解画像を与えているようなことは記載されていません。
17
17
 
18
18
  ・何を基準に精度をシグモイドで精度を上げているのかわかりません。
19
+ ・GAN-CLSとの違いも知りたいです。
19
20
 
20
21
  読んでもよく意味が分からないので教えて頂けますか。
21
22
  よろしくお願い致します。

7

質問文修正

2021/02/09 01:51

投稿

watchdogs
watchdogs

スコア54

title CHANGED
File without changes
body CHANGED
@@ -4,45 +4,18 @@
4
4
  [リンク内容](https://arxiv.org/abs/1605.05396)
5
5
 
6
6
  ここで紹介されているネットワークアーキテクチャーですが、
7
- ここではテキストから画像生成するモデルとしてDC-GANが紹介されています。
7
+ ここではテキストから画像生成する最初のモデルとしてDC-GANが紹介されています。
8
8
  画像を書きに示します。
9
9
  ![イメージ説明](3a59f6594963eda5305fca13b48fa729.png)
10
10
 
11
+ ここで
12
+ DC-GANのモデルでこの認識器Dが行っている仕事内容がわからないので、
11
- ここでよくわからないですが、
13
+ 教えてほしいです
14
+ ・Dではテキストに対する画像の精度を見ているのでしょうか。
12
- GANと言
15
+ 特に説明では、正解の説明文は与ているが、
13
- 正解があってその正解に近づけるように画像を生成す
16
+ 正解画像を与えていようなことは記載されていません。
14
- 正解と生成されたものを見分けられるように識別器を学習させる
15
- と2つのネットワークが学習し合い精度の高い画像を生成すると勉強しましたが、
16
17
 
17
- 本DC-GANのモデルでは、
18
- 正解画像用いず、下記の手順に沿って画像生成すると表記されていま
18
+ ・何基準精度シグモイドで精度を上げているのかわかりせん
19
19
 
20
- <画像生成(G)>
21
- テキストをRNNなどを使用してエンコードする
22
-
23
- コンコードされたデータに対して
24
- Leaky-reluを使用して低圧縮する
25
-
26
- 別入力あるノイズZと結合させGANげ入力
20
+ 読んもよく意味が分からないので教え頂けまか。
27
-
28
- 画像を生成する
29
-
30
- <認識判断(D)>
31
- 生成された画像を入力として受け取る
32
-
33
- 4×4の大きさになるまで畳み込み層とスライド層(stride:2)で計算を行う
34
-
35
- エンコードされたテキストφ(t)を画像と結合して、線形結合層を使用し圧縮を行う
36
-
37
- Dで出力する画像の特徴量である4×4で複製を行う
38
-
39
- 1×1畳み込みを使用して特徴量を圧縮
40
-
41
- 4×4畳み込み層を使用して確立を出力
42
-
43
- と説明がありました。
44
-
45
- DC-GANでは正解データを使うという概念がそもそもないのか知りたいです。
46
- それとDC-GANの重みの更新がどのように行われているのか知りたいです。
47
-
48
21
  よろしくお願い致します。

6

修正

2021/02/09 01:50

投稿

watchdogs
watchdogs

スコア54

title CHANGED
@@ -1,1 +1,1 @@
1
- GAN-CLSについて理解が正しいか教えて下さい
1
+ DC-GANについて教えて下さい
body CHANGED
@@ -1,32 +1,48 @@
1
- GAN-CLSについて勉強してす。
1
+ DC-GANについて知りたす。
2
- 下記の理解で正しいか教えていただけると大変助かります。
3
2
 
4
3
  下記の論文を読んで勉強しています。
5
4
  [リンク内容](https://arxiv.org/abs/1605.05396)
6
5
 
7
- Generator Network(G)で行っていること
8
- 任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされる
9
- から画像に一致した文章がエンコーディングされたφと
6
+ こで紹介されているネットワークアーキテクチャーですが、
7
+ ここではテキストから画像生成するモデルとしてDC-GANが紹介されています。
8
+ 画像を書きに示します。
10
- 画像生成用の乱数のノズ(z~N(0,1))を加えてφ(t)としてGに入力され画像を生成させる。
9
+ ![メージ説明](3a59f6594963eda5305fca13b48fa729.png)
11
10
 
11
+ ここでよくわからないですが、
12
+ GANと言えば
13
+ 正解があってその正解に近づけるように画像を生成する
14
+ 正解と生成されたものを見分けられるように識別器を学習させる
15
+ と2つのネットワークが学習し合い精度の高い画像を生成すると勉強しましたが、
12
16
 
17
+ 本DC-GANのモデルでは、
18
+ 正解画像を用いずに、下記の手順に沿って画像を生成すると表記されています。
13
19
 
20
+ <画像生成(G)>
14
- Discriminator Network(D)で行っこと
21
+ テキストをRNNなどを使用しエンコードす
15
- Gにて任意の文章で作成された画像
16
-
22
+
17
- 説明文が一致し正解の画像で
23
+ コンコードされデータに対して
18
- 一致するかどうか
24
+ Leaky-relu使用し低圧縮す
25
+
26
+ 別入力であるノイズZと結合させてGANげ入力する
27
+
28
+ 画像を生成する
19
29
 
30
+ <認識判断(D)>
20
- 本物か偽物かの判断をして
31
+ 生成された画像入力として受け取
32
+
33
+ 4×4の大きさになるまで畳み込み層とスライド層(stride:2)で計算を行う
34
+
35
+ エンコードされたテキストφ(t)を画像と結合して、線形結合層を使用し圧縮を行う
36
+
37
+ Dで出力する画像の特徴量である4×4で複製を行う
38
+
39
+ 1×1畳み込みを使用して特徴量を圧縮
40
+
41
+ 4×4畳み込み層を使用して確立を出力
21
42
 
22
- 本物の画像 と 本物の文章 本物と判断
23
- 本物の画像 と 間違えた文章 偽物と判断
24
- 偽物の画像 と 間違えた文章 偽物のと判断
25
- 偽物の画像 と 本物の文章 偽物と判断
26
- 上記の項目に従って学習ている
43
+ と説明がありまた。
27
44
 
45
+ DC-GANでは正解データを使うという概念がそもそもないのか知りたいです。
28
- 図で記載する下記のような理解なのですが、
46
+ それDC-GAN重みの更新がどのように行われているか知りたいです
29
- ![イメージ説明](116f0259651f04892e14356fe02672ae.png)
30
47
 
31
-
32
- この様な理解でよろしいょうか
48
+ よろしくお願ます

5

画像を修正しました

2021/02/08 09:44

投稿

watchdogs
watchdogs

スコア54

title CHANGED
File without changes
body CHANGED
@@ -26,7 +26,7 @@
26
26
  上記の項目に従って学習している
27
27
 
28
28
  図で記載すると下記のような理解なのですが、
29
- ![イメージ説明](10c724772a2a21b2aaea571b882cb3c1.png)
29
+ ![イメージ説明](116f0259651f04892e14356fe02672ae.png)
30
30
 
31
31
 
32
32
  この様な理解でよろしいでしょうか。

4

質問を修正しました。

2021/02/08 02:20

投稿

watchdogs
watchdogs

スコア54

title CHANGED
@@ -1,1 +1,1 @@
1
- GAN-CLS Textをimageするメカニズムについて質問させください。
1
+ GAN-CLSについて理解が正しいか教えさい。
body CHANGED
@@ -5,19 +5,18 @@
5
5
  [リンク内容](https://arxiv.org/abs/1605.05396)
6
6
 
7
7
  Generator Network(G)で行っていること
8
- 任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされたものがφであ
8
+ 任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされる
9
+ そこから画像に一致した文章がエンコーディングされたφと
9
- φに画像生成用の乱数のノイズ(z~N(0,1))を加えてφ(t)としてGに入力され画像を生成させる。
10
+ 画像生成用の乱数のノイズ(z~N(0,1))を加えてφ(t)としてGに入力され画像を生成させる。
10
11
 
11
12
 
12
13
 
13
- ![イメージ説明](c3e3ecd18878b9ceb67a433e301351f3.png)
14
- 画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
15
-
16
14
  Discriminator Network(D)で行っていること
17
15
  Gにて任意の文章で作成された画像
18
16
 
19
17
  説明文が一致した正解の画像で
20
- 一致するかどうかをみており
18
+ 一致するかどうかをみている
19
+
21
20
  本物か偽物かの判断をしている
22
21
 
23
22
  本物の画像 と 本物の文章 本物と判断
@@ -26,4 +25,8 @@
26
25
  偽物の画像 と 本物の文章 偽物と判断
27
26
  上記の項目に従って学習している
28
27
 
28
+ 図で記載すると下記のような理解なのですが、
29
+ ![イメージ説明](10c724772a2a21b2aaea571b882cb3c1.png)
30
+
31
+
29
32
  この様な理解でよろしいでしょうか。

3

質問の内容が間違えていたのを修正した。

2021/02/08 02:09

投稿

watchdogs
watchdogs

スコア54

title CHANGED
@@ -1,1 +1,1 @@
1
- DC-GAN Textをimageにするメカニズムについて質問させてください。
1
+ GAN-CLS Textをimageにするメカニズムについて質問させてください。
body CHANGED
@@ -1,15 +1,15 @@
1
- DCGANについて勉強しています。
1
+ GAN-CLSについて勉強しています。
2
2
  下記の理解で正しいか教えていただけると大変助かります。
3
3
 
4
4
  下記の論文を読んで勉強しています。
5
5
  [リンク内容](https://arxiv.org/abs/1605.05396)
6
6
 
7
7
  Generator Network(G)で行っていること
8
- 入力され説明エンコーディングたφ
8
+ 任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされものがφである
9
- ノイズ(潜在変数)を加えてφ(t)として入力
9
+ φに画像生成用の乱数のノイズ(z~N(0,1))を加えてφ(t)としてGに入力され画像を生成させ
10
- GANでは通常ノイズ(潜在変数)から画像を生成するが、
11
- テキストから画像を生成する本論文では文章をエンコーディングしたφ(t)と画像生成用ノイズであるz~N(0,1)をGeneratorへINPUTして画像を生成させる
12
10
 
11
+
12
+
13
13
  ![イメージ説明](c3e3ecd18878b9ceb67a433e301351f3.png)
14
14
  画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
15
15
 
@@ -26,8 +26,4 @@
26
26
  偽物の画像 と 本物の文章 偽物と判断
27
27
  上記の項目に従って学習している
28
28
 
29
-
30
- ![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
31
- 画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
32
-
33
29
  この様な理解でよろしいでしょうか。

2

質問文修正

2021/02/08 01:47

投稿

watchdogs
watchdogs

スコア54

title CHANGED
File without changes
body CHANGED
@@ -11,7 +11,7 @@
11
11
  テキストから画像を生成する本論文では文章をエンコーディングしたφ(t)と画像生成用ノイズであるz~N(0,1)をGeneratorへINPUTして画像を生成させる
12
12
 
13
13
  ![イメージ説明](c3e3ecd18878b9ceb67a433e301351f3.png)
14
- 画像はがオリジナルの説明で矢印の先が私の簡易的な理解の図です。
14
+ 画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
15
15
 
16
16
  Discriminator Network(D)で行っていること
17
17
  Gにて任意の文章で作成された画像
@@ -28,6 +28,6 @@
28
28
 
29
29
 
30
30
  ![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
31
- 画像はがオリジナルの説明で矢印の先が私の簡易的な理解の図です。
31
+ 画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
32
32
 
33
33
  この様な理解でよろしいでしょうか。

1

質問の内容を修正しました。

2021/02/07 12:20

投稿

watchdogs
watchdogs

スコア54

title CHANGED
File without changes
body CHANGED
@@ -14,10 +14,20 @@
14
14
  画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
15
15
 
16
16
  Discriminator Network(D)で行っていること
17
- 先ほどGで作成された画像と本物の画像、説明文がエンコーディングされたものが入力され
17
+ Gにて任意の文章で作成された画像
18
+
19
+ 説明文が一致した正解の画像で
20
+ 一致するかどうかをみており
18
21
  本物か偽物かの判断をしている
19
22
 
23
+ 本物の画像 と 本物の文章 本物と判断
24
+ 本物の画像 と 間違えた文章 偽物と判断
25
+ 偽物の画像 と 間違えた文章 偽物のと判断
26
+ 偽物の画像 と 本物の文章 偽物と判断
27
+ 上記の項目に従って学習している
28
+
29
+
20
- ![イメージ説明](c4bd7e996911606a1da136d1e1e5f6cf.png)
30
+ ![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
21
31
  画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
22
32
 
23
33
  この様な理解でよろしいでしょうか。