強化学習（あるいは、入出力の関係が予測困難なプログラム）のテスト手法を教えて下さい

現在、強化学習の一手法であるREINFORCEをフルスクラッチで実装しています。
一応動く様にはなったものの、細かいバグがまだ多数あると思われます。

そこで、一度きちんとテストしたいのですが、単体テストはある程度出来たものの、結合テスト以上がどうすれば良いか分かりません。

構成

プログラムの構成は下記の通りです。

エージェント：REINFORCE
方策：Softmax方策（Boltzmann分布使用）
価値関数：線形関数
環境：状態遷移・報酬共に確率的では無い環境、ただし、状態数・行動数が非常に多い

状態遷移関数・報酬関数は既知（エージェントが知りうるもの）として扱いますので、nステップ先まで先読みして行動価値を決定しています。
例：迷路の場合ですと、「上、右、右、下と移動するとゴールに到達するので、今から上に移動すれば+1の報酬が得られる」という感じです。

試した事

迷路の場合を例にして記載します。

一本道の迷路にしてみる
迷路の大きさを小さくしてみる（1000x1000→10x10に）

論文・書籍・ウェブサイト等ソースは問いませんので、テスト手法をご紹介頂ければと思います。
私はこうしている、というご回答も大歓迎です。

行動規範の内容に同意します

回答1件

ベストアンサー

こんにちは。

機能テストは、「ある入力を入れた時の出力が正しいか？」を実際の使い方をほぼ網羅するセットについて確認することと思います。つまり既知の問題を自動化する際に可能な作業です。

例えば、シミュレーションなどのように特定の条件下で何が起こるのか？を求めるというのは、未知の結果を計算したいので、「正しい出力」が判っていません。ですので機能テストは事実上無理と思います。
そのシミュレーション・プログラムが導き出した結果が現実と照らし合わせて妥当であれば、シミュレーションへの入力、および、シミュレーション・プログラムの両方が妥当であると判断でき、実績を積むことで信頼性が増すという類のことと思います。

そのようなシミュレーション・プログラムでも、通常は複数のモジュールやクラス等で構築されており、分解していくと「入力に対する出力」が既知になる筈です。その既知となる部品単位でテストをすることは可能と思います。
しかし、それらの部品を組み合わせてシミュレーション・プログラムが完成しますが、その組み合わせの正当性のテストは事実上無理と言う意味です。

私は画像処理プログラムを作っていて同様な問題に悩んだことがあります。処理するデータ量が多いからです。特定の画像に入力を固定することはできますが、その正しい結果を手で求めることが現実的ではないのです。正しい出力が分からないのでテストも出来ないわけです。

ただし、どうしても信頼性を上げたい場合は、「正しい結果を手で求める」部分を別途テスト用のプログラムを作って求め、そのれを用いてテストすることは可能と思います。

しかし、そのテスト用のプログラムのテストは？という問題があります。独立して開発されたターゲットのプログラムとテスト用のプログラムの２つが「同じ間違い」を内包する確率が低いことは期待できますのでこれでもかなり信頼性が改善すると思います。
更に信頼性を上げるなら、更にもう一つテスト用プログラムを他の人の手で作ることで「同じ間違い」をする確率を減らすことができると思います。

しかし、実はこの問題は「入力に対する出力が既知」のもののテストでも同様です。テストデータの正当性は？という問題ですから。人間は間違いを犯します。その間違いを検出するのがテストです。しかし、テストを行うのも人間なのでやはり間違いが紛れ込みます。その確率を下げるには複数の人間による独立テストです。同じ間違いを複数の人間が行う確率はかなり低いですから、信頼性は向上します。

投稿2018/04/27 01:48

編集2018/04/27 01:49

Chironian

総合スコア23274

rtr1950x

2018/04/28 05:02

ご回答有り難うございます。テスト用プログラムを（自分OR他人が）作成して結果を突き合わせるというのは、プログラムの規模・工数的に厳しそうです。 > そのようなシミュレーション・プログラムでも、通常は複数のモジュールやクラス等で構築されており、分解していくと「入力に対する出力」が既知になる筈です。その既知となる部品単位でテストをすることは可能と思います。この部分はある程度出来そうですので、早速実行してみることにします。 ※ 引き続き他の方の回答も待ちたいので、状態は「受付中」のままとさせて頂きます。

行動規範の内容に同意します