プログラミング初学者です。
概要
照明配置レイアウトの自動化に応用するため、以下(実現したいこと)に記載するような強化学習を作ろうとしています。
その上で、実践を交えつつ強化学習を学ぶような文献やサイトを複数参照してみたものの、Gymを用いたCartPole問題等を扱ったものが多く、自分が実現したい学習に本質的に近いコードが見つからず躓いています。
1から強化学習を実装するときに、環境や状態、報酬といったパラメータを設定しなければならないと思いますが、そういった設定の記述が分かりやすく説明された、文献やサイトなど、ご存じの方がいらっしゃいましたらご教授いただければと思います。
強化学習どころか、プログラミングすら知識がままならず、曖昧とした質問になってしまい、申し訳ありません。
実現したいこと
現状、自分の頭の中のイメージとしては以下のような強化学習を実装できればと考えています。
黒背景の画像中における任意の点(x,y)をエージェントに選択させ、選択した点を中心とした円(白)を配置する。以上の動作を複数回繰り返した後に得られる下の画像のような結果の輝度を取得し、輝度に応じた報酬を与える。
行動:任意の点(x,y)、円の個数(n)の選択
報酬:画像の輝度が明るいほどプラス、円の個数が多いほどマイナス
ひとまず、こちらが指定した個数の点で学習するようなプログラムを組んでみて、最終的には適切な個数もエージェント側が決定するようなものが実現できればと考えています。
回答1件
あなたの回答
tips
プレビュー