回答編集履歴
2
修正
answer
CHANGED
@@ -71,7 +71,7 @@
|
|
71
71
|
↓
|
72
72
|
`Agent#__init__()`の中で、CriticNetworkがインスタンス化されます[質問文の(2)]
|
73
73
|
↓
|
74
|
-
main_ddpg.py の中で`Agent#learn()`を呼び出しています。[[src](https://github.com/philtabor/Youtube-Code-Repository/blob/master/ReinforcementLearning/PolicyGradient/DDPG/tensorflow2/pendulum/main_ddpg.py#L26)]。
|
74
|
+
main_ddpg.py の中で`Agent#learn()`を呼び出しています。[[src](https://github.com/philtabor/Youtube-Code-Repository/blob/master/ReinforcementLearning/PolicyGradient/DDPG/tensorflow2/pendulum/main_ddpg.py#L26)]。`Agent#learn()`の中で、ddpg_tf2.pyの質問文にある(1)が呼び出されます。
|
75
75
|
「 critic_value = tf.squeeze(self.critic(states, actions), 1)」
|
76
76
|
↓
|
77
77
|
このとき、`self.critic(states, actions), 1)`という呼び出し方をしていることから、ここで**CriticNetworkの`__call__()`を呼びだすことになります。**
|
1
修正
answer
CHANGED
@@ -71,7 +71,7 @@
|
|
71
71
|
↓
|
72
72
|
`Agent#__init__()`の中で、CriticNetworkがインスタンス化されます[質問文の(2)]
|
73
73
|
↓
|
74
|
-
main_ddpg.py の`learn()`[[src](https://github.com/philtabor/Youtube-Code-Repository/blob/master/ReinforcementLearning/PolicyGradient/DDPG/tensorflow2/pendulum/main_ddpg.py#L26)]関数の中で、ddpg_tf2.pyの質問文にある(1)が呼び出されます。
|
74
|
+
main_ddpg.py の中で`Agent#learn()`を呼び出しています。[[src](https://github.com/philtabor/Youtube-Code-Repository/blob/master/ReinforcementLearning/PolicyGradient/DDPG/tensorflow2/pendulum/main_ddpg.py#L26)]。Agemt#learn関数の中で、ddpg_tf2.pyの質問文にある(1)が呼び出されます。
|
75
75
|
「 critic_value = tf.squeeze(self.critic(states, actions), 1)」
|
76
76
|
↓
|
77
77
|
このとき、`self.critic(states, actions), 1)`という呼び出し方をしていることから、ここで**CriticNetworkの`__call__()`を呼びだすことになります。**
|