ChainerRLのstop_episode_and_trainメソッドの使い方

Chainerを使ってオセロの棋譜を学習させたCNNを、今度はChainerRLのREINFORCEアルゴリズムを使って強化学習させようとしています。
しかし、掲載したコードを実行すると、最後にモデルを更新するagent.stop_episode_and_trainのところで"IndexError: tuple index out of range"が出てしまいます。
これは何が原因なのでしょうか？

以下のようなサイトを参考にしましたが、例が少なく、そもそもstop_episode_and_trainの引数obsとrewardの要件がよくわかっていません。
chainerrl/train_reinforce_gym.py at master · chainer/chainerrl
chainerrl.agents.reinforce — ChainerRL 0.3.0 documentation
ChainerRLで三目並べを深層強化学習（Double DQN）してみた - Qiita

obsとしては、図のように2チャネルに分けた盤面の行列を、1手目、3手目、、、59手目と並べたものを入力しています(実際には総手数にブレがあります)。
rewardは、勝ちなら1、負けなら-1を30個(くらい)並べた配列を入力しています。

コード全文はこちらにあります。
IaGo/reinforce.py at master · shionhonda/IaGo
詳しい解説記事も書いてあります。
AlphaGoを模したオセロAIを作る(1): SLポリシーネットワーク - Qiita
【未完】AlphaGoを模したオセロAIを作る(2): RLポリシーネットワーク【助言求む】 - Qiita

ソースコード

python
1N = 4 # エピソード数
2# モデル定義
3model1 = L.Classifier(SLPolicy.SLPolicyNet())
4serializers.load_npz(model1_path, model1)
5optimizer = optimizers.Adam()
6optimizer.setup(model1)
7optimizer.add_hook(chainer.optimizer_hooks.WeightDecay(5e-4))
8model1.to_gpu()
9# REINFORCEアルゴリズムで強化学習
10agent = chainerrl.agents.REINFORCE(model1, optimizer, batchsize=N,
11backward_separately=False)
12
13for set in tqdm(range(args.set)):
14    # 対戦相手のモデル定義
15    model2 = L.Classifier(SLPolicy.SLPolicyNet())
16    serializers.load_npz(model2_path, model2)
17    model2.to_gpu()
18
19    for i in tqdm(range(N)):
20        game = rl_self_play.Game(model1, model2)
21        reward = game() # ゲーム実行。勝ちなら1、負けなら-1、引き分けなら0のスカラー値を返す
22        X = np.array(game.states) # 1ゲームの盤面の履歴
23        X = np.stack([X==1, X==2], axis=3) # 黒石の有無、白石の有無で２チャネルに分ける
24        states_var = chainer.Variable(X.reshape(-1, 2, 8, 8).astype(cp.float32))
25        # iがNに達したらモデル更新
26        agent.stop_episode_and_train(states_var, reward*np.ones(states_var.shape[0]), done=True)

##エラーメッセージ
Traceback (most recent call last):
File "reinforce.py", line 60, in <module>
main()
File "reinforce.py", line 53, in main
agent.stop_episode_and_train(states_var, reward*np.ones(states_var.shape[0]), done=True)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\agents\reinforce.py", line 130, in stop_episode_and_train
self.batch_update()
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\agents\reinforce.py", line 171, in batch_update
self.accumulate_grad()
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\agents\reinforce.py", line 154, in accumulate_grad
total_loss = chainerrl.functions.sum_arrays(losses)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\functions\sum_arrays.py", line 47, in sum_arrays
return SumArrays()(*xs)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainer\function.py", line 235, in call
ret = node.apply(inputs)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainer\function_node.py", line 243, in apply
self._check_data_type_forward(in_data)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainer\function_node.py", line 320, in _check_data_type_forward
self.check_type_forward(in_type)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainer\function.py", line 130, in check_type_forward
self._function.check_type_forward(in_types)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\functions\sum_arrays.py", line 12, in check_type_forward
in_types[0].dtype.kind == 'f',
IndexError: tuple index out of range

バージョン

Chainer 4.1.0
ChainerRL 0.3.0
Python 3.6.1

行動規範の内容に同意します

回答1件

自己解決

doneをFalseにしたら動きました。正しく学習できているのかはわかりませんが…

python
1agent.stop_episode_and_train(states_var, reward*np.ones(states_var.shape[0]), done=False)

投稿2018/06/14 09:43

ShionHonda

総合スコア11

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！