softlearning:Softlearning是用于在连续域中训练最大熵策略的强化学习框架。 包括Soft Actor Critic算法的正式实现 源码
软学习 软学习是一种深度强化学习工具箱,用于在连续域中训练最大熵策略。 该实现相当薄,并且主要针对我们自己的开发目的进行了优化。 对于大多数模型类(例如策略和值函数),它都使用tf.keras模块。 我们使用Ray进行实验编排。 Ray Tune和Autoscaler实现了几项简洁的功能,使我们能够无缝运行与用于本地原型制作的实验脚本相同的实验脚本,以在任何选定的云服务(例如GCP或AWS)上启动大规模实验,并智能地并行化和分发培训以提高效率。资源分配。 此实现使用Tensorflow。 对于软参与者批评的PyTorch实现,请看一下 。 入门 先决条件 该环境可以使用conda在本地运行,
用户评论