質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Q&A

解決済

2回答

906閲覧

数学記号[]についての質問

sanma_ow

総合スコア5

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

0グッド

0クリップ

投稿2019/09/16 08:51

前提・実現したいこと

https://qiita.com/ishizakiiii/items/5eff79b59bce74fdca0d
強化学習について勉強しています。
上のリンクの記事の行動価値関数の
Qπ(s,a)=E[Gt|st=s,at=a,π]
の数式の意味がよくわかりません。
集合のような[]はどういった意味で使われているのでしょうか。
条件付き確率が[]の中で表されていることはわかりますが=で繋がれているため理解できません。
わかる方いらっしゃれば教えていただければ幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

「E[X|Y]」という書き方がよく出てきますが、これは「Yという条件下でのXの期待値」という意味になります。また、数式内の”=”は代入ではなく、等価判定です。
ですので、質問文の数式を日本語で書くと「stがa、atがa、方策πに従った場合の、Gtの期待値をQπ(s,a)とする」という意味になります。

投稿2019/09/16 10:13

rtr1950x

総合スコア298

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ここでの = は、左辺を右辺で定義する、という意味です。
曖昧性を排除するために、:= と書くほうがよいでしょう。

投稿2019/09/21 00:23

WathMorks

総合スコア1582

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sanma_ow

2019/10/02 08:41

ありがとうございます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問