回答率: 85.35%

質問するログイン新規登録

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

新規登録して質問してみよう

ただいま回答率: 85.35%

トップ強化学習に関する質問

Q&A

解決済

2回答

2304閲覧

Log probabilityの計算

総合スコア112

0グッド

0クリップ

投稿2020/04/06 15:09

編集2020/04/06 23:01

0

0

Python
1import torch
2from torch.distributions import Categorical
3
4# 40%と60%で確率を設定
5probs = torch.tensor([0.4, 0.6]])
6# カテゴリカル分布クラスをインスタンス化
7m = Categorical(probs)
8# サンプリング
9action = m.sample()
10log_prob = m.log_prob(action)

この確率分布クラスは毎回サンプリング値が異なりますが、具体的に、どのような計算を行っているのしょうか。参考ページPROBABILITY DISTRIBUTIONS - TORCH.DISTRIBUTIONS

multinomialを使っているので基本的には並べ替えを変えているようですが、それだけでしょうか。

PyTorch
1 def sample(self, sample_shape=torch.Size()):
2        sample_shape = self._extended_shape(sample_shape)
3        param_shape = sample_shape + torch.Size((self._num_events,))
4        probs = self.probs.expand(param_shape)
5        probs_2d = probs.reshape(-1, self._num_events)
6        sample_2d = torch.multinomial(probs_2d, 1, True)
7        return sample_2d.reshape(sample_shape)
8

行動規範の内容に同意します

回答2件

0

ベストアンサー

質問のコードは表が出る確率が0.4、裏が出る確率が0.6のコインをトスしたとき、表裏のどちらが出るかをサンプリングするというものです。
当たり前ですが、裏の出る確率が高くても常に裏が出るとは限りません。これがサンプリングするたびに結果が異なる理由です。

結果が毎回異なるようにする実装は乱数を生成することで実現しています。ここからは想像になりますが、実装としては擬似乱数関数を使って一様分布の値を生成し、各確率分布の定義に沿って実際の乱数に変換しているのではないでしょうか。

なお、離散系の確率分布のベルヌーイ分布・二項分布・他項分布・カテゴリー分布は式変形により導出な関係です。もう少しざっくりいうとベルヌーイ分布を試行回数・クラス数を拡張させると他の分布になります。よって、コードを追いかけていくと最終的にベルヌーイ分布を擬似乱数関数で実装しているのではないでしょうか

投稿2020/04/07 21:43

総合スコア3376

2020/04/08 11:44

とても分かりやすいです

行動規範の内容に同意します

0

具体的に、どのような計算を行っているのしょうか。

Log probability は、確率値に対数をとったものです。

実装の話であれば、こちらでコードを見れます。

torch.distributions.categorical — PyTorch master documentation

追記

multinomialを使っているので基本的には並べ替えを変えているようですが、それだけでしょうか。

カテゴリカル分布は、多項分布で N = 1 とした場合なので、torch.multinomial(probs_2d, 1, True) で計算しています。

ややこしい離散分布に関するまとめ - 作って遊ぶ機械学習。

投稿2020/04/06 15:24

編集2020/04/07 03:41

総合スコア21956

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

関連した質問

トップ強化学習に関する質問

Log probabilityの計算

関連した質問

同じタグがついた質問を見る

運営からのお知らせ

【年末年始休業のお知らせ】年末年始休業につき下記の期間、お問い合わせ等のサポート業務をお休みいたします。 2024/12/27(金)〜2025/01/05(日) 期間中もサポートへのお問い合わせは承りますが、返信は2025/01/06(月)以降となります。また、2025年の初回メルマガ配信は01/07(火)を予定しております。

【ジャック広告の配信について】現在、非ログイン状態のユーザー様に対して一部の地域限定でジャック広告を配信しております。詳細につきましてはteratailブログをご確認ください。 https://blog.teratail.com/entry/jack-ad-202412

過去のお知らせを見る