質問編集履歴
1
アクション選択の問題の解決
test
CHANGED
@@ -1 +1 @@
|
|
1
|
-
強化学習の報酬
|
1
|
+
強化学習にて同じデータを使っているのにトレーニングとテストで報酬に大幅は差異が出る
|
test
CHANGED
@@ -479,3 +479,7 @@
|
|
479
479
|
![イメージ説明](93a184b2e4cfdbcf2f9575b2fc97c3dc.jpeg)
|
480
480
|
|
481
481
|
![イメージ説明](6a1fcd7b46199d00b7238e99acbb64c3.jpeg)
|
482
|
+
|
483
|
+
---
|
484
|
+
|
485
|
+
アクション選択の偏りについては、layer_normを追加することで解決しました。
|