回答編集履歴
1
修正
test
CHANGED
@@ -6,7 +6,9 @@
|
|
6
6
|
|
7
7
|
|
8
8
|
|
9
|
-
例えば、**DDPG (deep deterministic policy gradient)** のような方策勾配法ベースのアルゴリズムです。
|
9
|
+
例えば、**DDPG (deep deterministic policy gradient)** のような方策勾配法ベースのアルゴリズムです。Github で検索すると、実装例も出てきます。
|
10
|
+
|
11
|
+
質問の例ですと、モデルの出力は [-2, 2] の実数になります。
|
10
12
|
|
11
13
|
|
12
14
|
|