1. 首页
  2. 人工智能
  3. 深度学习
  4. 第十章_强化学习.pdf

第十章_强化学习.pdf

上传者: 2020-08-17 18:55:07上传 PDF文件 730.39KB 热度 10次
其他许多机器学习算法中学习器都是学得怎样做,而RL是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards,还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于: (1) 基本是以一种闭环的形式; (2) 不会直接指示选择哪种行动(actions); (3) 一系列的actions和奖励信号(reward signals)都会影响之后较长的时间。
用户评论