ただいまQテーブルを使った強化学習のアルゴリズムについて勉強しているのですがアルファ、ガンマを使った例の式の導出は数学的に証明されているものなのでしょうか?
最適化されている公式なのでしたらその導出方法を教えていただきたいです。
> アルファ、ガンマを使った例の式
どの式のことを言っているのかわかりません。
記載するか、その式の記載があるページの URL を貼るなどしてください。
本件とは関係ないですが、過去の質問は放置せず、クローズする等なんらかの対応を行ってください。
ベルマン方程式のことですかね?
http://seiya-kumada.blogspot.com/2018/02/blog-post.html
このサイトが参考になりますよ。
根本的な目的、「報酬の期待値を最大にする」ということです。
なので、割引報酬和の期待値を式に表してから、それをいい感じの式に変形するって感じだった気がします。
質問が曖昧であった為自己解決にします
回答1件
あなたの回答
tips
プレビュー