pythonのgymライブラリで、環境によって取り得るアクションを制限したいです。
例えば強化学習の例でよく見るエージェントがゴールを目指す環境において
通常時は以下の様にアクションを定義したいのですが
self.action_space = spaces.Discrete(4)
A_Left = 0
A_Right = 1
A_Up = 2
A_Down = 3
以下の様に迷路の端まで来た時はそちらに進まない様に
アクションに制限をかけることは可能でしょうか?
□□□□
□G□□
□□□□
□□□〇
G:Goal
〇:Agent
□:地形
この時に右と下のアクションは選択しない様にしたいと考えております。
その場合はマイナスの報酬を与えることで学習させている例も見受けられましたが
そもそもアクションを取らない様にする選択はできないのか疑問に思ったので質問させていただきました。
ご回答の程何卒宜しくお願いいたします。
あなたの回答
tips
プレビュー