回答編集履歴
1
fix context
test
CHANGED
@@ -6,6 +6,16 @@
|
|
6
6
|
|
7
7
|
あなたの質問における特定の状況、つまり「1つの方策の確率だけが1になり、他が全て0になる」という状況は、理論上は可能ですが、実際には非常に稀です。このような状況が発生するためには、ソフトマックス関数に与えられる入力ベクトルの中で1つの要素の値が極端に大きく、他が非常に小さいか、あるいは負の大きな値でなければなりません。
|
8
8
|
|
9
|
+
ご提供いただいた例
|
10
|
+
|
11
|
+
> 例えば所持金最大化の方策の種類が
|
12
|
+
> 1. 100円稼ぐ
|
13
|
+
> 2. 50円稼ぐ
|
14
|
+
> 3. 何もしない
|
15
|
+
> 4. 50円払う
|
16
|
+
> 5. 100円払う
|
17
|
+
> でそれぞれの行動の影響が独立であった場合
|
18
|
+
|
9
|
-
|
19
|
+
「所持金最大化」という目的のもとで「100円稼ぐ」行動が他の行動よりも明らかに有利であれば、その方策の確率が高くなる可能性はあります。しかし、ソフトマックス関数は通常、入力の差異を緩和し、全ての選択肢にある程度の確率を割り当てるため、一つの選択肢に絶対的な確率(つまり1)が割り当てられる状況は、入力値が極端でない限り、珍しいです。
|
10
20
|
|
11
21
|
したがって、一つの方策の確率が完全に1になり、他が全て0になるような状況は、理論上は可能ですが、実際の強化学習のアプリケーションではあまり一般的ではないと言えるでしょう。特に、環境やタスクが動的であるか、あるいは多様な行動が可能な場合には、一つの選択肢に全ての確率が集中することはほとんどありません。
|