MP DQN:论文的源代码 Source code learning
多通道深度Q网络 该存储库包括用于参数化动作空间MDP的几种强化学习算法: P-DQN MP-DQN SP-DQN PA-DDPG 豪 Q-PAMDP 多遍深层Q网络(MP-DQN)通过使用几次遍历(并行批处理)将动作参数输入分配到Q网络来解决P-DQN的过度参数化问题。 拆分深度Q网络(SP-DQN)是一种慢得多的解决方案,它使用具有/不具有共享特征提取层的多个Q网络。 还为P-DQN提供了加权索引的动作参数损失函数。 依存关系 Python 3.5+(已通过3.5和3.6测试) pytorch 0.4.1(1.0+应该可以,但是会慢一些) 体育馆0.10.5 麻木 点击 域 提供了实验脚本,可通过参数化操作在以下域上运行每种算法: 平台( ) 机器人足球进球( ) 半场进攻( ) 上述OpenAI Gym环境的最简单安装方法如下: pip in
用户评论