Unity ML-Agentsで、学習中勝手にEndEpisodeされる

パズルゲームの2048をML-Agentsを使って解かせようとしています。

EndEpisodeの条件を満たしていないはずなのに、勝手にエピソードが終了して、学習しているフィールドがリセットされます。自分で書いたコードが悪いのか、学習の環境が悪いのかわからないので質問させていただきます。

現象としては、「ある程度学習が進むと、マスに空きがあるにも関わらず、1~3秒程度ののフリーズののち、フィールドがリセットされて、最初からまた動き始める。その『ある程度』の時間は、学習のステップ数が多くなるにつれて短くなり、最終的には、(2048を知っている人向けの説明ですが、)2が二つ、4が一つとかの段階でリセットされる。これによって、報酬があまりもらえないままエピソードが終了するのでRewardはだんだん低くなる。」という感じです。

該当のソースコード

エピソードの終了を判定するメソッドを抜粋しています。

C#
1public void CheckMovable()
2    {
3        bool movable = false;
4        ClearLog();     //ログを消去
5        for (int i = 0; i < 4; i++)
6        {
7            for (int j = 0; j < 4; j++)
8            {
9                //上下左右が一緒か
10                if (i != 3 && !(panels[i, j].value == 0 && panels[i + 1, j].value == 0))
11                    movable |= panels[i, j].value == panels[i + 1, j].value;
12                if (j != 3 && !(panels[i, j].value == 0 && panels[i, j + 1].value == 0))
13                    movable |= panels[i, j].value == panels[i, j + 1].value;
14            }
15        }
16        Debug.Log(movable);    //一回目のチェック
17        for (int i = 0; i < 4; i++)
18        {
19            for (int j = 0; j < 4; j++)
20            {
21                //パネルに空きがあるか
22                movable |= panels[i, j].value == 0;
23            }
24        }
25        Debug.Log(movable);    /二回目のチェック
26        
27        //画面に表示されている内容と実際に数値として取り扱っている内容が同じかの確認用(同じなことが確認済)
28        foreach(int i in i)
29        {
30            Debug.Log(panels[i, 0].value + ", " + panels[i, 1].value + ", " + panels[i, 2].value + ", " + panels[i, 3].value);
31        }
32
33        if (!movable) EndEpisode();
34    }

試したこと

ML-Agents Release 12、17で試した。
Mac環境→Windows環境にした。
Macに関してはOSを再インストール。
両環境でanacondaを再インストール。

補足情報（FW/ツールのバージョンなど）

手動実行時にも似たような現象が起きるので、不思議でなりません。
PCが熱すぎたりとかもなかったです。

Unity 2019.4.32
ml-agents release 18
(
ml-agents: 0.27.0
ml-agents-envs: 0.27.0
Communicator API: 1.5.0
PyTorch: 1.7.0+cu110
)

設定ファイル

yaml
1behaviors:
2   Agent2048:
3     trainer_type: ppo
4     hyperparameters:
5       batch_size: 10
6       buffer_size: 100
7       learning_rate: 3.0e-4
8       beta: 5.0e-4
9       epsilon: 0.2
10       lambd: 0.99
11       num_epoch: 3
12       learning_rate_schedule: linear
13     network_settings:
14       normalize: false
15       hidden_units: 128
16       num_layers: 2
17     reward_signals:
18       extrinsic:
19         gamma: 0.995
20         strength: 1.0
21     max_steps: 500000
22     time_horizon: 64
23     summary_freq: 10000
24     threaded: false