強化学習について「Pythonで学ぶ強化学習 入門から実践まで(久保隆宏 著)」で勉強しているのですが、39ページでのcode2-5で躓いてしまいました。
上から4つ目のdefについて質問です。
python
1 def transitions_at(self, state, action): 2 transition_probs = self.env.transit_func(state, action) 3 for next_state in transition_probs: 4 prob = transition_probs[next_state] 5 reward, _ = self.env.reward_func(next_state) 6 yield prob, next_state, reward
2行目 transit_func() や、5行目 reward_func() ってどんな内容の関数なのでしょうか?
python自体、まだ触り立ててで慣れていないのでどこか見落としがあるとは思うのですが、自分では気づけません。よろしくお願いします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/07/19 13:05
2019/07/22 04:27
2019/07/24 03:03