質問編集履歴
3
追加
test
CHANGED
File without changes
|
test
CHANGED
@@ -18,7 +18,7 @@
|
|
18
18
|
|
19
19
|
- エージェントにはゴールの座標(2,)エージェントの周辺(5,5)の画像のピクセルデータが合わせて(27,)の形で入力される
|
20
20
|
|
21
|
-
- 300stepたったら強制終了目標座標到達で終了&報酬+100(もしかして300stepで終了だからどの行動が根拠で高い報酬につながったかわからないから学習が進まない
|
21
|
+
- 300stepたったら強制終了目標座標到達で終了&報酬+100(もしかして300stepで終了だからどの行動が根拠で高い報酬につながったかわからないから学習が進まないと思い50stepにしたもののだめでした)
|
22
22
|
|
23
23
|
- 毎ステップ報酬-1
|
24
24
|
|
2
補足
test
CHANGED
File without changes
|
test
CHANGED
@@ -18,7 +18,7 @@
|
|
18
18
|
|
19
19
|
- エージェントにはゴールの座標(2,)エージェントの周辺(5,5)の画像のピクセルデータが合わせて(27,)の形で入力される
|
20
20
|
|
21
|
-
- 300stepたったら強制終了目標座標到達で終了&報酬+100
|
21
|
+
- 300stepたったら強制終了目標座標到達で終了&報酬+100(もしかして300stepで終了だからどの行動が根拠で高い報酬につながったかわからないから学習が進まない?)
|
22
22
|
|
23
23
|
- 毎ステップ報酬-1
|
24
24
|
|
1
報酬
test
CHANGED
File without changes
|
test
CHANGED
@@ -18,6 +18,10 @@
|
|
18
18
|
|
19
19
|
- エージェントにはゴールの座標(2,)エージェントの周辺(5,5)の画像のピクセルデータが合わせて(27,)の形で入力される
|
20
20
|
|
21
|
+
- 300stepたったら強制終了目標座標到達で終了&報酬+100
|
22
|
+
|
23
|
+
- 毎ステップ報酬-1
|
24
|
+
|
21
25
|
|
22
26
|
|
23
27
|
エージェントには自分の周りの風景で居場所を認識し、ゴールの座標の方へ移動する力が求められる。
|