質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python

    7978questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Chainer

    144questions

    Chainerは、国産の深層学習フレームワークです。あらゆるニューラルネットワークをPythonで柔軟に書くことができ、学習させることが可能。GPUをサポートしており、複数のGPUを用いた学習も直感的に記述できます。

ChainerRLのstop_episode_and_trainメソッドの使い方

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 402

ShionHonda

score 3

Chainerを使ってオセロの棋譜を学習させたCNNを、今度はChainerRLのREINFORCEアルゴリズムを使って強化学習させようとしています。
しかし、掲載したコードを実行すると、最後にモデルを更新するagent.stop_episode_and_trainのところで"IndexError: tuple index out of range"が出てしまいます。
これは何が原因なのでしょうか?

以下のようなサイトを参考にしましたが、例が少なく、そもそもstop_episode_and_trainの引数obsとrewardの要件がよくわかっていません。
chainerrl/train_reinforce_gym.py at master · chainer/chainerrl
chainerrl.agents.reinforce — ChainerRL 0.3.0 documentation
ChainerRLで三目並べを深層強化学習(Double DQN)してみた - Qiita

obsとしては、図のように2チャネルに分けた盤面の行列を、1手目、3手目、、、59手目と並べたものを入力しています(実際には総手数にブレがあります)。
rewardは、勝ちなら1、負けなら-1を30個(くらい)並べた配列を入力しています。
イメージ説明
コード全文はこちらにあります。
IaGo/reinforce.py at master · shionhonda/IaGo
詳しい解説記事も書いてあります。
AlphaGoを模したオセロAIを作る(1): SLポリシーネットワーク - Qiita
【未完】AlphaGoを模したオセロAIを作る(2): RLポリシーネットワーク【助言求む】 - Qiita

 ソースコード

N = 4 # エピソード数
# モデル定義
model1 = L.Classifier(SLPolicy.SLPolicyNet())
serializers.load_npz(model1_path, model1)
optimizer = optimizers.Adam()
optimizer.setup(model1)
optimizer.add_hook(chainer.optimizer_hooks.WeightDecay(5e-4))
model1.to_gpu()
# REINFORCEアルゴリズムで強化学習
agent = chainerrl.agents.REINFORCE(model1, optimizer, batchsize=N,
backward_separately=False)

for set in tqdm(range(args.set)):
    # 対戦相手のモデル定義
    model2 = L.Classifier(SLPolicy.SLPolicyNet())
    serializers.load_npz(model2_path, model2)
    model2.to_gpu()

    for i in tqdm(range(N)):
        game = rl_self_play.Game(model1, model2)
        reward = game() # ゲーム実行。勝ちなら1、負けなら-1、引き分けなら0のスカラー値を返す
        X = np.array(game.states) # 1ゲームの盤面の履歴
        X = np.stack([X==1, X==2], axis=3) # 黒石の有無、白石の有無で2チャネルに分ける
        states_var = chainer.Variable(X.reshape(-1, 2, 8, 8).astype(cp.float32))
        # iがNに達したらモデル更新
        agent.stop_episode_and_train(states_var, reward*np.ones(states_var.shape[0]), done=True)

エラーメッセージ

Traceback (most recent call last):
File "reinforce.py", line 60, in <module>
main()
File "reinforce.py", line 53, in main
agent.stop_episode_and_train(states_var, reward*np.ones(states_var.shape[0]), done=True)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\agents\reinforce.py", line 130, in stop_episode_and_train
self.batch_update()
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\agents\reinforce.py", line 171, in batch_update
self.accumulate_grad()
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\agents\reinforce.py", line 154, in accumulate_grad
total_loss = chainerrl.functions.sum_arrays(losses)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\functions\sum_arrays.py", line 47, in sum_arrays
return SumArrays()(*xs)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainer\function.py", line 235, in call
ret = node.apply(inputs)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainer\function_node.py", line 243, in apply
self._check_data_type_forward(in_data)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainer\function_node.py", line 320, in _check_data_type_forward
self.check_type_forward(in_type)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainer\function.py", line 130, in check_type_forward
self._function.check_type_forward(in_types)
File "C:\Users\26xor\Anaconda3\lib\site-packages\chainerrl\functions\sum_arrays.py", line 12, in check_type_forward
in_types[0].dtype.kind == 'f',
IndexError: tuple index out of range

 バージョン

Chainer 4.1.0
ChainerRL 0.3.0
Python 3.6.1

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

check解決した方法

0

doneをFalseにしたら動きました。正しく学習できているのかはわかりませんが…

agent.stop_episode_and_train(states_var, reward*np.ones(states_var.shape[0]), done=False)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.51%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    7978questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Chainer

    144questions

    Chainerは、国産の深層学習フレームワークです。あらゆるニューラルネットワークをPythonで柔軟に書くことができ、学習させることが可能。GPUをサポートしており、複数のGPUを用いた学習も直感的に記述できます。