多智能体 DM ICML ACAI.pdf
强化学习与多智能体入门读物,这篇文章对多智能体强化学习(MARL)的背景,目的,代表性的算法进行了调研,在这样一个环境中,每个智能体拥有独立的 Q network,独自采集数据并进行训练,都有对环境的全局观察,动作空间包含以下四个维度:上移、下移、保持不动以及击球(或称为开始游戏)。 作者为了全面的观察将 DQN 应用到多智能体环境下的各方面表现,通过设计回报函数的方式设计了完全协作环境、完全竞争环境以及非完全协作/竞争环境。具体回报函数设计如下: 完全协作环境:一方失球,则两方均获得 -1 的回报 完全竞争环境:一方失球,该方获得 -1 的回报;对方获得 +1 的回报 非完全协作/竞争环
下载地址
用户评论