25×25の迷路を2次元配列で壁を1で表し、通路を0で表してスタートが(1,1)、ゴールを(23,23)とし、ゴールに辿り着いたときのみ報酬を100与えるQ学習で最適経路を見つけるプログラムを書いたところ、いつまでたっても出力がされませんでした。
gdbで変数の中身を調べたところ、初めにForループに入ってdirection[4]の配列にQ値を代入したあとはdirectionの全ての要素に0が入るはずなのですが、
(gdb) set print elements 0
(gdb) p direction
$2 = {99, 49, 33, 79}
のように乱数が入っていました。
また、Whileループを進めてみたところnextdirectionに1が入った後は2が入り、2が入った後は1が入り・・・とループしていることがわかりました。
何が原因でこのような挙動をしているのかご教授お願い致します。
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。