Unity + ML-Agents 学習中の動作と学習完了後の動作に大きな差異

Unity + ML-Agentsでの強化学習において、「学習中の動作」と「学習完了後のモデルファイルを使った推論プレイの動作」に大きな差異があり、その原因がわからず困っています。

具体的にどう違うのかを説明するための動画を作りましたので、まず御覧いただきたいです。
https://youtu.be/PWWiGkqr2ic

実行環境
Windows8.1
Unity 2019.4.18f1
Python 3.8.5
PyTorch 1.7.0
ML-Agents Release 12 (Unity Package v1.7.2)
※anacondaは使用せず、以下のドキュメントで紹介された手順に沿ってPythonで仮想環境を作成し、それをactivateした上で学習実行しています。

困っているのは、学習中のUnity画面を見ると、キャラクターが敵にスムーズに近づいて行って、ターゲットである敵の頭部にスムーズに攻撃するようになったと思ったので学習を停止し、生成されたモデルファイルを使って推論プレイをすると、敵にまっすぐ近づかないし、近づいてもターゲットをうまく攻撃してくれず、明らかに学習中よりも動作のレベルが落ちているように感じることで、このように、学習中の動作と推論プレイの動作に差異が出る原因がわからず、どこを直せばいいのかで困っているという状況です。

まだUnity+ML-Agentsに不慣れな部分も多いため、そもそも色々な設定が間違っている可能性ももちろんあるのですが、学習中と学習結果で差が出るような一般的な原因としてあげられるのはどんなものがあるのでしょうか。

宜しくお願いいたします。