767最终IR 源码
767最终IR COMP 767最终项目 Alex Hoffman和Nikhil Podila 麦吉尔大学 我们从创建了重要性重采样算法的Python实现 我们还尝试了在重采样算法中添加优先体验重播 该代码需要以下软件包:numpy,gym,tensorflow,matplotlib。 如果使用anaconda,则可以通过pip install或conda install进行安装。 运行文件“ OffPolicyAgent_testing.py”将生成图,具体取决于在文件底部注释掉的函数。 超参数在文件正文中设置。 在测试功能中设置实验设置(LR扫描的学习率,更新次数,每次更新的步骤,批量
用户评论