回答編集履歴

softmax_randomからboltzmann_randomに変更

2019/02/28 08:34

投稿

スコア185

test CHANGED Viewed

@@ -78,4 +78,4 @@
-softmax_randomに一次元の行動価値の配列を渡して使います。
+boltzmann_randomに一次元の行動価値の配列を渡して使います。

色々と無駄があったので修正

2019/02/28 08:34

投稿

スコア185

test CHANGED Viewed

@@ -38,31 +38,9 @@
-def softmax(array):
+def boltzmann_random(array, temperature_parameter):
-    if array.ndim == 2:
-        array = array.T
-        array = array - np.max(array, axis=0)
-        result = np.exp(array) / np.sum(np.exp(array), axis=0)
-        return result.T
-    array = array - np.max(array) # オーバーフロー対策
-    return np.exp(array) / np.sum(np.exp(array))
-def softmax_random(array, temperature_parameter):
-    softmax_array = softmax(array)
-    boltzmann_array = boltzmann_distribution(softmax_array, temperature_parameter)
+    boltzmann_array = boltzmann_distribution(array, temperature_parameter)
     random_value = random.uniform(0, 1)
@@ -82,17 +60,17 @@
 #行動価値
-array = np.array([0.5, 0.2, 0.3])
+array = np.array([0.5, 0.3, 0.2])
 #temperature_parameter = 0であれば最大値のみを選択する
-action_index = [softmax_random(array, 0) for _ in range(10000)]
+action_index = [boltzmann_random(array, 0) for _ in range(10000)]
 print([action_index.count(i) for i in range(len(array))])
 #temperature_parameterを大きくするほどランダム性が高まる 1であれば行動価値に応じた確率で行動を起こす
-action_index = [softmax_random(array, 1) for _ in range(10000)]
+action_index = [boltzmann_random(array, 1) for _ in range(10000)]
 print([action_index.count(i) for i in range(len(array))])

コードの修正

2019/02/28 08:33

投稿

スコア185

test CHANGED Viewed

@@ -62,7 +62,7 @@
     softmax_array = softmax(array)
-    boltzmann_array = boltzmann_distribution(array, temperature_parameter)
+    boltzmann_array = boltzmann_distribution(softmax_array, temperature_parameter)
     random_value = random.uniform(0, 1)

printデバッグが残ったままだった

2019/02/28 08:27

投稿

スコア185

test CHANGED Viewed

@@ -76,8 +76,6 @@
             return i
-    print("ok", i)
     return i

リスト内包の部分でバグがあったぽいので修正

2019/02/28 08:25

投稿

スコア185

test CHANGED Viewed

@@ -76,6 +76,8 @@
             return i
+    print("ok", i)
     return i
@@ -86,11 +88,15 @@
 #temperature_parameter = 0であれば最大値のみを選択する
+action_index = [softmax_random(array, 0) for _ in range(10000)]
-print([[softmax_random(array, 0) for _ in range(10000)].count(i) for i in range(len(array))])
+print([action_index.count(i) for i in range(len(array))])
 #temperature_parameterを大きくするほどランダム性が高まる 1であれば行動価値に応じた確率で行動を起こす
+action_index = [softmax_random(array, 1) for _ in range(10000)]
-print([[softmax_random(array, 1) for _ in range(10000)].count(i) for i in range(len(array))])
+print([action_index.count(i) for i in range(len(array))])
 ```