一般:MuZero 源码
音乐零将军 基于Google DeepMind(2019年11月)和相关的对MuZero进行了注释和实现。 它旨在轻松适应各种游戏或强化学习环境(如 )。 您只需要添加带有超参数和游戏类的。 请参考和。 MuZero是用于棋盘游戏(Chess,Go,...)和Atari游戏的最先进的RL算法。 它是的后继产品,但对动力学基础的环境一无所知。 MuZero学习环境模型并使用内部表示形式,该内部表示形式仅包含有用的信息,用于预测奖励,价值,政策和过渡。 MuZero也靠近。 请参阅。 产品特点 残留网络和完全连接的网络 带多线程/异步/ 多GPU支持训练和自玩 TensorBoard实时
用户评论