※プログラミングに直接関する回答ではないので、あくまで一意見となります。
※問題設定についてはこの記事をイメージとした個人的な推測になります。間違ってたらすみません。
結論から言うと、再帰ニューラルネットワーク(RNN)が一番あっているんじゃないかと思います。
強化学習の妥当性について
強化学習は、報酬が得られるように行動の最適化を行うのですが、この**「報酬」とは「最終的な結果に対する報酬」であり、各時点で貰える報酬は考慮されません**。
強化学習で有名な将棋の場合、勝負の途中で得られる駒は考慮されず、最終的な勝敗のみが報酬となります(飛車や角を持ってても詰まされたら意味がありません)。
詳しくは、以下の記事を御覧ください。
強化学習入門 ~これから強化学習を学びたい人のための基礎知識~
質問者さんの場合、各時点における計算問題正答数も見ていることから、10分後の問題正答数だけ最大化したいわけではなく、1分後、2分後…の問題正答数も増やしたいかと思われます。そうすると、最終的な結果しか考慮しない強化学習は向いてないかと思います。
RNNについて
自然言語処理(翻訳とか)で有名なRNNですが、本来は時系列データ(1時間ごとの東京都の降水量など時間がセットとなるデータ)全般に有効な機械学習アルゴリズムです。
入力と出力の関係を推測する点は一般的なニューラルネットワークと変わらないのですが、ある時点のデータが、それ以降に発生するデータに影響を及ぼすように設計できるのが特徴です。
ネットワークの構造など詳細については、以下の記事をご覧ください。
再帰型ニューラルネットワークの「基礎の基礎」を理解する ~ディープラーニング入門|第3回
温湿度・風量を入力、次の温湿度(次のネットワークの入力に用いる)・問題正答数(ラベル扱いにするかは要検討)を出力とし、用意したデータ(教師データ)と比較・学習させることで、温湿度・風量と問題正答数の関係をモデル化できるかと思います。
ネットワークの出力を最大化する入力の作成
RNN(機械学習)で実現できるのは、入出力の関連をモデル化し、あくまで入力が用意された場合の出力を予測することです。
対して、質問者さんが実現したいのは、各時点の計算問題正答数を最大化する温湿度・風量を知ることだと思います。
そのためには、機械学習によるモデル化に加えて、ネットワークの出力を最大化する入力の作成が必要になります。
ただし、これに関する情報は日本語だと全く見つかりません。海外でもあるかどうかわからないレベルです。
線形計画法(最適化問題)の応用でいけるかもしれませんが、線形計画法も機械学習と同様に沼の如く深い分野です。少なくとも、私の手に負える分野ではありません。
研究かなにかだと思いますが、無理せず頑張ってください。