質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

0回答

856閲覧

SARSA法による強化学習

ula

総合スコア0

強化学習

強化学習とは、ある環境下のエージェントが現状を推測し行動を決定することで報酬を獲得するという見解から、その報酬を最大限に得る方策を学ぶ機械学習のことを指します。問題解決時に得る報酬が選択結果によって変化することで、より良い行動を選択しようと学習する点が特徴です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/05/31 08:09

前提・実現したいこと

SARSA法によるユーザシュミレータの作成

ここに質問の内容を詳しく書いてください。
(対話システム作成において、参考書に基づいてユーザシュミレータを作成しました。
その際、強化学習でQ学習を行いましたが、SARSA法も試したいと思っていますが、現在のコードにどのようにして組み込めば良いかわかりません

該当のソースコード

python

import random # システムの対話行為 sys_da_lis = [ "open-prompt", "ask-drink", "ask-size", "ask-tmp", "ask-num1", "close-prompt"] # システムの状態 states = ["0000","0001","0010","0011","0100","0101","0110","0111","1000","1001","1010","1011","1100","1101","1110","1111"] # Q値(行動状態価値)の初期化 Q = {} for state in states: Q[state] = {} for sys_da in sys_da_lis: Q[state][sys_da] = 0 # フレームを更新 def update_frame(frame, da, conceptdic): if da == "request-order": for k,v in conceptdic.items(): # コンセプトの情報でスロットを埋める frame[k] = v elif da == "initialize": frame = {"drink": "", "size": "", "tmp": "", "num1": ""} elif da == "correct-info": for k,v in conceptdic.items(): if frame[k] == v: frame[k] = "" return frame # フレームから状態を表す文字列に変換 # place, date, type の順に値が埋まっていたら1,埋まってなければ0 def frame2state(frame): state = "" for k in ["drink","size","tmp","num1"]: if frame[k] == "": state += "0" else: state += "1" return state # ユーザシミュレータ # ユーザは聞かれたスロットについて的確に答える. # open-promptには聞きたいことをいくつかランダムに伝える. # tell-info によるシステム回答の内容が合っていたらgoodbyeをする. # tell-infoの内容が間違っていたらinitializeをする. def next_user_da(sys_da, sys_conceptdic, intention): if sys_da == "ask-drink": return "request-order", {"drink": intention["drink"]} elif sys_da == "ask-size": return "request-order", {"size": intention["size"]} elif sys_da == "ask-tmp": return "request-order", {"tmp": intention["tmp"]} elif sys_da == "ask-num1": return "request-order", {"num1": intention["num1"]} elif sys_da == "open-prompt": while(True): dic = {} for k,v in intention.items(): if random.choice([0,1]) == 0: dic[k] = v if len(dic) > 0: return "request-order", dic elif sys_da == "close-prompt": is_ok = True for k,v in intention.items(): if sys_conceptdic[k] != v: is_ok = False break if is_ok: return "goodbye", {} else: return "initialize", {} # ランダムに行動 def next_system_da(frame): # 値がすべて埋まってないとtell-infoは発話できない cands = list(sys_da_lis) if frame["drink"] == "" or frame["size"] == "" or frame["tmp"] == "" or frame["num1"] == "": cands.remove("close-prompt") value = random.random() sys_da = random.choice(cands) sys_conceptdic = {} if sys_da == "close-prompt": sys_conceptdic = frame return sys_da, sys_conceptdic # 対話を成功するまで一回実行 # intentionはユーザの意図,alphaは学習係数,gammaは割引率を表す def run_dialogue(intention, alpha=0.1, gamma=0.9): frame = {"drink": "", "size": "", "tmp": "", "num1": ""} while(True): s1 = frame2state(frame) sys_da, sys_conceptdic = next_system_da(frame) da, conceptdic = next_user_da(sys_da, sys_conceptdic, intention) frame = update_frame(frame, da, conceptdic) s2 = frame2state(frame) # 遷移先の状態(s2)から得られる最大の価値を取得 da_lis = sorted(Q[s2].items(),key=lambda x:x[1], reverse=True) maxval = da_lis[0][1] if da == "goodbye": # 成功した対話の後の状態は存在しないのでmaxvalは0 maxval = 0 # Q値を更新して対話を終わる Q[s1][sys_da] = Q[s1][sys_da] + alpha * ((100 + gamma * maxval) - Q[s1][sys_da]) break else: # Q値を更新 Q[s1][sys_da] = Q[s1][sys_da] + alpha * ((0 + gamma * maxval) - Q[s1][sys_da]) if __name__ == "__main__": # 十万回対話をして学習 for i in range(100000): run_dialogue({"drink":"コーヒー","size":"エル","tmp":"アイス","num1":"4つ"}) # Q値を表示 print(Q) # 各状態で最適な行動をQ値とともに表示 for k,v in Q.items(): da_lis = sorted(Q[k].items(),key=lambda x:x[1], reverse=True) print(k, "=>", da_lis[0][0], da_lis[0][1]) # end of file

試したこと

このコードはQ学習を用いて作成したプログラムです
これをSARSA法に組み替えて実行したいと考えています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問