-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
NeurIPS '21 | Two steps to risk sensitivity. #13
Comments
相关文献
|
planning在RL中,除了model-free的方式,还有model-based的方式,也就是说RL-agent会对环境建立一个model。在off-line的时候,不仅仅能通过存储的real-expr的重放进行policy/value的修正(其实在人中,比较难以保证,如何说明replay的expr就一定是real-expr呢?),还可以通过对环境的model产生simu-expr来进行policy/value的修正。 |
随机性和不确定性来自知乎的一个回答Risk and Uncertainty:
个人对于随机性和不确定性的理解为,随机性和不确定性的产生是因为人们的不完全观测导致决定state的环境动力学主变量并没有完全cover环境动力学系统中的全部主变量。随机性是一个短期可测量的dist,是一种可以被测量的不确定性,可以被视为动力学系统中未被观测的快速变化主变量,也就是衰减系数很小,该变量随着时间快速震荡。不确定性是一个长期缓慢变化的一个dist,不可被测量(毕竟我们的测量都是有限时间内进行的),可以被视为动力学系统中未被观测的慢速变化主变量,也就是衰减系数很大,该变量随着时间慢速震荡。 |
好像和衰减系数无关?必须要的一个条件为周期性震荡,但变化速度是不同的,这和衰减系数的平滑好像没有完全对等的关系。 |
time-consistency的定义为:The choices the decision maker at time t assumes will be executed at time t+1 are indeed carried out. |
使用CVaR建模Two-Step TaskTwo-Step Task如下,stage2的不同图片具备不同的奖励概率,且该奖励概率随时间而发生迁移。 |
当然CVaR也可以用于planning,使用prioritized-sweep进行planning模拟可以得到如下结果: 我们可以发现,CVaR-optimal planning,会更关注于如何逃离火坑,比如pCVaR中前面几步一直在规划逃离火坑,这就有些类似人们的worry现象,使用mental-simulation来尝试解决问题,但对于同一件事情会担忧很多次。同时,由于需要planning,我们必须要维持一个和dist-mean指标所需要的SR矩阵的相对应的distorted-SR矩阵。这里之所以是distorted-SR,是因为CVaR的Bellman-like表达式中存在distortion factor: |
总结
|
Gagne C, Dayan P. Two steps to risk sensitivity.
The text was updated successfully, but these errors were encountered: