例えばTD法やQ学習では、TD誤差が減少していればある程度きちんと学習できていると判断して良いかと思います。
(単純に、減少しさえすれば良いというものでもないですが。)
また、一般的な教師あり学習であれば、LossやAccuracyを指標にできるかと思います。
ですが、方策勾配法ではそのようなものが色々な論文・ウェブサイトを見ても載っていなかったので、もしそういう指標があればご教授いただきたく思います。
あなたの回答
tips
プレビュー
投稿2018/12/29 09:05
例えばTD法やQ学習では、TD誤差が減少していればある程度きちんと学習できていると判断して良いかと思います。
(単純に、減少しさえすれば良いというものでもないですが。)
また、一般的な教師あり学習であれば、LossやAccuracyを指標にできるかと思います。
ですが、方策勾配法ではそのようなものが色々な論文・ウェブサイトを見ても載っていなかったので、もしそういう指標があればご教授いただきたく思います。
あなたの回答
tips
プレビュー