深層強化学習を勉強しています。
A2Cのpolicy network(のweight)とvalue network(のweight)はshareされるのかわかりません。
chainerは別のネットワークとしていそうです。
MG2033はConv層は共有して最後の層は分かれていそうです
最近のトレンド等も含めてどちらが主流なのでしょうか。
ご存知の方、ご教授いただければ幸いです。よろしくお願いします。
あなたの回答
tips
プレビュー
投稿2019/02/06 14:34
深層強化学習を勉強しています。
A2Cのpolicy network(のweight)とvalue network(のweight)はshareされるのかわかりません。
chainerは別のネットワークとしていそうです。
MG2033はConv層は共有して最後の層は分かれていそうです
最近のトレンド等も含めてどちらが主流なのでしょうか。
ご存知の方、ご教授いただければ幸いです。よろしくお願いします。
あなたの回答
tips
プレビュー