PARL:强化学习的高性能分布式培训框架 源码
English || PARL是一种灵活而高效的强化学习框架。 特征 可重现。 我们提供的算法可以稳定地重现许多有影响力的强化学习算法的结果。 大规模的。 能够支持数千个CPU和多GPU的高性能并行训练。 可重用。 通过定义前向网络,可以直接将存储库中提供的算法用于新任务,并且将自动构建训练机制。 可扩展的。 通过继承框架中的抽象类,快速构建新算法。 抽象化 PARL旨在建立一个代理来训练算法来执行复杂的任务。 PARL引入的用于递归构建代理的主要抽象如下: 模型 抽象Model以构建前向网络,该前向网络定义了以状态为输入的策略网络或评论者网络。 算法 Algorithm描述了更新Model参数的机制,通常包含至少一个模型。 代理人 Agent是环境与算法之间的数据桥梁,它负责与外部环境进行数据I / O,并描述在将数据输入训练过程之前的数据预处理。 注意:有关基类的更多信息,
用户评论