1. 首页
  2. 人工智能
  3. 机器学习
  4. q学习matlab代码示例路基搜索

q学习matlab代码示例路基搜索

上传者: 2020-06-20 14:22:02上传 RAR文件 1.24KB 热度 18次
%s表示状态,a表示动作,Q(s,a)表示对状态s下动作a得到的总体回报的一个估计,r为此动作的立即回报.   %1、对每个s,a初始化表项Q(s,a)为0   %2、观察当前状态s   %3、一直重复做:   %选择一个动作a并执行它,该动作为使Q(s,a)最大的a。  接收到立即回报r。  观察新状态s'。   %对Q(s',a')按照下式更新表项:  Q(s,a)=r+gama*maxQ(s',a')。  s=s'。
用户评论