深度强化学习算法在MuJoCo机器人环境中的应用与比较(DDPG、TD3、SAC)
深度强化学习的 DDPG、TD3、SAC 这几套算法,放到 MuJoCo 环境里一跑,优劣立马就看出来了。文中代码挺扎实,Actor/Critic 的结构清晰,是 SAC 那套熵调节逻辑,讲得到位。你如果正在研究机器人控制,尤其是那种动作空间连续的,比如 Humanoid 走路啥的,这篇文章还挺值得花时间仔细看看。
下载地址
用户评论