前提・実現したいこと
主要概念(※1)を漏れなく用いての詳細(※2)な説明があると助かります。
※1 Agent, Environment, State, Action, Reward, policy などでしょうか?
※2 数式による説明もそのひとつかも知れません
試したこと
いろいろ調べてみましたが、主要概念を漏れなく用いての詳細な説明は見つけられませんでした。
補足情報(FW/ツールのバージョンなど)
MDP という概念もあるようですが、Environment の記述を簡素にするために導入したもの、との理解であっていますか?
あなたの回答
tips
プレビュー