Agent采取动作与动态系统交互,系统将观测值反馈给agent.为了控制系统或者预测系统未来的观测值,需要为动态系统建模.早些时候,较为广泛的解决方法是用POMDP模型给系统建模.Littman,Sutton和Singh (2002)提出了为离散动态系统建模的新方法:预测状态表示(Predictive Representations of State).PSRs优点在于在于并不像POMDP那样需要系统的隐藏状态,而只是通过预测系统反馈给agent的观测值序列来表示系统的状态.并且PSRs模型比POMDP模型更简洁.PSRs的两个核心问题是要找出那些能够表示系统状态的动作-观测值序列,和学习影响系统的参数.最近的几年中,学者们提出了多种方法来解决这两个问题,还提出了PSRs模型的规划方法,并且将PSRs扩展到其他的模型中.本论文将综述了上述的方法.
暂无评论