編集履歴

質問編集履歴

文章修正

2021/02/09 01:51

投稿

watchdogs

スコア54

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -16,6 +16,7 @@
 正解画像を与えているようなことは記載されていません。
 ・何を基準に精度をシグモイドで精度を上げているのかわかりません。
+・GAN-CLSとの違いも知りたいです。
 読んでもよく意味が分からないので教えて頂けますか。
 よろしくお願い致します。

7 514 1300 1326

質問文修正

2021/02/09 01:51

投稿

watchdogs

スコア54

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -4,45 +4,18 @@
 [リンク内容](https://arxiv.org/abs/1605.05396)
 ここで紹介されているネットワークアーキテクチャーですが、
-ここではテキストから画像生成するモデルとしてDC－GANが紹介されています。
+ここではテキストから画像生成する最初のモデルとしてDC－GANが紹介されています。
 画像を書きに示します。
 ![イメージ説明](3a59f6594963eda5305fca13b48fa729.png)
+ここで
+DC－GANのモデルでこの認識器Dが行っている仕事内容がわからないので、
-ここでよくわからないですが、
+教えてほしいです。
+・Dではテキストに対する画像の精度を見ているのでしょうか。
-GANと言えば
+特に説明では、正解の説明文は与えているが、
-正解があってその正解に近づけるように画像を生成する
+正解画像を与えているようなことは記載されていません。
-正解と生成されたものを見分けられるように識別器を学習させる
-と2つのネットワークが学習し合い精度の高い画像を生成すると勉強しましたが、
-本DC-GANのモデルでは、
-正解画像を用いずに、下記の手順に沿って画像を生成すると表記されています。
+・何を基準に精度をシグモイドで精度を上げているのかわかりません。
-＜画像生成（G）＞
-テキストをRNNなどを使用してエンコードする
-↓
-コンコードされたデータに対して
-Leaky－reluを使用して低圧縮する
-↓
-別入力であるノイズZと結合させてGANげ入力する
+読んでもよく意味が分からないので教えて頂けますか。
-↓
-画像を生成する
-＜認識判断（D）＞
-生成された画像を入力として受け取る
-↓
-4×4の大きさになるまで畳み込み層とスライド層（stride:2）で計算を行う
-↓
-エンコードされたテキストφ(t)を画像と結合して、線形結合層を使用し圧縮を行う
-↓
-Dで出力する画像の特徴量である4×4で複製を行う
-↓
-1×1畳み込みを使用して特徴量を圧縮
-↓
-4×4畳み込み層を使用して確立を出力
-と説明がありました。
-DC-GANでは正解データを使うという概念がそもそもないのか知りたいです。
-それとDC－GANの重みの更新がどのように行われているのか知りたいです。
 よろしくお願い致します。

7 514 1300 1326

修正

2021/02/09 01:50

投稿

watchdogs

スコア54

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~GAN~~-~~CLS~~について~~理解が正しいか~~教えて下さい。
1	+ DC-GANについて教えて下さい

body CHANGED Viewed

@@ -1,32 +1,48 @@
-GAN-CLSについて勉強しています。
+DC－GANについて知りたいです。
-下記の理解で正しいか教えていただけると大変助かります。
 下記の論文を読んで勉強しています。
 [リンク内容](https://arxiv.org/abs/1605.05396)
-Generator Network（G）で行っていること
-任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされる
-そこから画像に一致した文章がエンコーディングされたφと
+ここで紹介されているネットワークアーキテクチャーですが、
+ここではテキストから画像生成するモデルとしてDC－GANが紹介されています。
+画像を書きに示します。
-画像生成用の乱数のノイズ（z~N(0,1)）を加えてφ（t）としてGに入力され画像を生成させる。
+![イメージ説明](3a59f6594963eda5305fca13b48fa729.png)
+ここでよくわからないですが、
+GANと言えば
+正解があってその正解に近づけるように画像を生成する
+正解と生成されたものを見分けられるように識別器を学習させる
+と2つのネットワークが学習し合い精度の高い画像を生成すると勉強しましたが、
+本DC-GANのモデルでは、
+正解画像を用いずに、下記の手順に沿って画像を生成すると表記されています。
+＜画像生成（G）＞
-Discriminator Network（D）で行っていること
+テキストをRNNなどを使用してエンコードする
-Gにて任意の文章で作成された画像
-と
+↓
-説明文が一致した正解の画像で
+コンコードされたデータに対して
-一致するかどうかをみている
+Leaky－reluを使用して低圧縮する
+↓
+別入力であるノイズZと結合させてGANげ入力する
+↓
+画像を生成する
+＜認識判断（D）＞
-本物か偽物かの判断をしている
+生成された画像を入力として受け取る
+↓
+4×4の大きさになるまで畳み込み層とスライド層（stride:2）で計算を行う
+↓
+エンコードされたテキストφ(t)を画像と結合して、線形結合層を使用し圧縮を行う
+↓
+Dで出力する画像の特徴量である4×4で複製を行う
+↓
+1×1畳み込みを使用して特徴量を圧縮
+↓
+4×4畳み込み層を使用して確立を出力
-本物の画像　と　本物の文章　本物と判断
-本物の画像　と　間違えた文章　偽物と判断
-偽物の画像　と　間違えた文章　偽物のと判断
-偽物の画像　と　本物の文章　偽物と判断
-上記の項目に従って学習している
+と説明がありました。
+DC-GANでは正解データを使うという概念がそもそもないのか知りたいです。
-図で記載すると下記のような理解なのですが、
+それとDC－GANの重みの更新がどのように行われているのか知りたいです。
-![イメージ説明](116f0259651f04892e14356fe02672ae.png)
-この様な理解でよろしいでしょうか。
+よろしくお願い致します。

7 514 1300 1326

画像を修正しました

2021/02/08 09:44

投稿

watchdogs

スコア54

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -26,7 +26,7 @@
 上記の項目に従って学習している
 図で記載すると下記のような理解なのですが、
-![イメージ説明](10c724772a2a21b2aaea571b882cb3c1.png)
+![イメージ説明](116f0259651f04892e14356fe02672ae.png)
 この様な理解でよろしいでしょうか。

7 514 1300 1326

質問を修正しました。

2021/02/08 02:20

投稿

watchdogs

スコア54

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- GAN-CLS ~~Textをimage~~に~~するメカニズムに~~ついて~~質問させ~~てください。
1	+ GAN-CLSについて理解が正しいか教えて下さい。

body CHANGED Viewed

@@ -5,19 +5,18 @@
 [リンク内容](https://arxiv.org/abs/1605.05396)
 Generator Network（G）で行っていること
-任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされたものがφである
+任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされる
+そこから画像に一致した文章がエンコーディングされたφと
-φに画像生成用の乱数のノイズ（z~N(0,1)）を加えてφ（t）としてGに入力され画像を生成させる。
+画像生成用の乱数のノイズ（z~N(0,1)）を加えてφ（t）としてGに入力され画像を生成させる。
-![イメージ説明](c3e3ecd18878b9ceb67a433e301351f3.png)
-画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
 Discriminator Network（D）で行っていること
 Gにて任意の文章で作成された画像
 と
 説明文が一致した正解の画像で
-一致するかどうかをみており
+一致するかどうかをみている
 本物か偽物かの判断をしている
 本物の画像　と　本物の文章　本物と判断
@@ -26,4 +25,8 @@
 偽物の画像　と　本物の文章　偽物と判断
 上記の項目に従って学習している
+図で記載すると下記のような理解なのですが、
+![イメージ説明](10c724772a2a21b2aaea571b882cb3c1.png)
 この様な理解でよろしいでしょうか。

7 514 1300 1326

質問の内容が間違えていたのを修正した。

2021/02/08 02:09

投稿

watchdogs

スコア54

title CHANGED Viewed

	@@ -1,1 +1,1 @@
1	- ~~DC-~~GAN Textをimageにするメカニズムについて質問させてください。
1	+ GAN-CLS Textをimageにするメカニズムについて質問させてください。

body CHANGED Viewed

@@ -1,15 +1,15 @@
-DCGANについて勉強しています。
+GAN-CLSについて勉強しています。
 下記の理解で正しいか教えていただけると大変助かります。
 下記の論文を読んで勉強しています。
 [リンク内容](https://arxiv.org/abs/1605.05396)
 Generator Network（G）で行っていること
-入力された説明文をエンコーディングしたφに
+任意の文章と画像に一致した文章がRNNエンコーダでエンコーディングされたものがφである
-ノイズ（潜在変数）を加えてφ（t）として入力する
+φに画像生成用の乱数のノイズ（z~N(0,1)）を加えてφ（t）としてGに入力され画像を生成させる。
-GANでは通常ノイズ（潜在変数）から画像を生成するが、
-テキストから画像を生成する本論文では文章をエンコーディングしたφ(t)と画像生成用ノイズであるz~N(0,1)をGeneratorへINPUTして画像を生成させる
 ![イメージ説明](c3e3ecd18878b9ceb67a433e301351f3.png)
 画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
@@ -26,8 +26,4 @@
 偽物の画像　と　本物の文章　偽物と判断
 上記の項目に従って学習している
-![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
-画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
 この様な理解でよろしいでしょうか。

7 514 1300 1326

質問文修正

2021/02/08 01:47

投稿

watchdogs

スコア54

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -11,7 +11,7 @@
 テキストから画像を生成する本論文では文章をエンコーディングしたφ(t)と画像生成用ノイズであるz~N(0,1)をGeneratorへINPUTして画像を生成させる
 ![イメージ説明](c3e3ecd18878b9ceb67a433e301351f3.png)
-画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
+画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
 Discriminator Network（D）で行っていること
 Gにて任意の文章で作成された画像
@@ -28,6 +28,6 @@
 ![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
-画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
+画像は左側がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
 この様な理解でよろしいでしょうか。

7 514 1300 1326

質問の内容を修正しました。

2021/02/07 12:20

投稿

watchdogs

スコア54

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -14,10 +14,20 @@
 画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
 Discriminator Network（D）で行っていること
-先ほどGで作成された画像と本物の画像、説明文がエンコーディングされたものが入力され
+Gにて任意の文章で作成された画像
+と
+説明文が一致した正解の画像で
+一致するかどうかをみており
 本物か偽物かの判断をしている
+本物の画像　と　本物の文章　本物と判断
+本物の画像　と　間違えた文章　偽物と判断
+偽物の画像　と　間違えた文章　偽物のと判断
+偽物の画像　と　本物の文章　偽物と判断
+上記の項目に従って学習している
-![イメージ説明](c4bd7e996911606a1da136d1e1e5f6cf.png)
+![イメージ説明](bb3b05f4e5e8933c6a21a98af20ad52a.png)
 画像は右がオリジナルの説明で矢印の先が私の簡易的な理解の図です。
 この様な理解でよろしいでしょうか。

7 514 1300 1326