deep q network 次の行動環境s'がランダムで決まる場合はどうすれば？

自身で自作した簡単なゲームをdqnに学ばせようと考えています
そのゲームは、落下物を受け皿で受け止めたら+1 受け止められなかったらゲームオーバーというブロック崩しの簡易版のようなゲームです

そしてその落下物が落ちてくるのは完全にランダムです

python
1import numpy as np
2import random
3import os
4import msvcrt
5
6def マス目作成(マス数):
7    マス目リスト = []
8    for i in range(マス数):
9        マス目リスト.append("    ")
10
11    return マス目リスト
12
13
14def ゲーム画面作成(マス目リスト, 落下物, 受け皿, ポイント, 画像生成 = None):
15    画像配列 = []
16    print("ポイント", ポイント)
17    if 落下物 < 64:
18        print("落下物", 落下物)
19        マス目リスト[落下物] = " ▼ "
20
21    else:
22        print("落下物", 落下物)
23
24    if 受け皿 < 64:
25        print("受け皿", 受け皿)
26        マス目リスト[受け皿] = " __ "
27
28    else:
29        print("受け皿", 受け皿)
30
31    if 画像生成:
32        for イテレ in マス目リスト:
33            if イテレ == "    ":
34                画像配列.append(0)
35            elif イテレ == " ▼ ":
36                画像配列.append(1)
37            elif イテレ == " __ ":
38                画像配列.append(2)
39
40        return np.array(画像配列).reshape(8, 8)
41
42
43    マス目 = "{}{}{}{}{}{}{}{}\n"
44    return (マス目 + マス目 + マス目 + マス目 + マス目 + マス目 +マス目 + マス目).format(*マス目リスト)
45
46受け皿 = 59
47ポイント = 0
48while True:
49
50    落下物 = random.randint(0, 7)
51    if ポイント == -1:
52        break
53
54    for _ in range(9):
55
56        os.system("CLS")
57        print(ゲーム画面作成(マス目作成(64), 落下物, 受け皿, ポイント))
58
59        コマンド入力 = ord(msvcrt.getwch())
60        if コマンド入力 == 224:
61            コマンド入力 = ord(msvcrt.getwch())
62
63            if コマンド入力 == 75:
64                if 受け皿 == 56:
65                    pass
66                else:
67                    受け皿 -= 1
68
69            elif コマンド入力 == 77:
70                if 受け皿 == 63:
71                    pass
72                else:
73                    受け皿 += 1
74
75            elif コマンド入力 == 80:
76                pass
77
78        elif コマンド入力 == 27:
79            ポイント = -1
80            break
81
82        落下物 += 8
83
84        if _ == 6 and 落下物 == 受け皿:
85            ポイント += 1
86
87        elif _ == 6 and 落下物 != 受け皿:
88            ポイント = -1
89            break

一応ゲームのコードを貼っておきますが、汚かったらすいません。
そのままコピーして実行してもらえればどんな感じのゲームかはわかってもらえるかと思います
操作方法は、矢印キー左、右、下を押すだけです。
Escを押せば、ゲームを終了出来ます。

でここからが質問したい事です。
dqnパラメーターの更新させていくのに、次の行動の最大行動価値が分かる必要があるかと思います
新しい行動価値(s,a) = 現在の行動価値(s,a) + 学習率(α) * (報酬(r) + 割引率(γ) * 次の行動の最大行動価値(s',a') - 現在の行動価値(s,a))

が、今回のようにs'がランダムで決まってしまう場合、(今回の場合は、落下物の出力)更新式はどのようになるのでしょうか？

わかる方いらしたらよろしくお願いします。