基于对称扰动采样的Actor critic 算法

上传者：menglei65850 2021-01-17 00:40:08上传 PDF文件 236.95KB 热度 15次

针对传统Actor-critic (AC) 方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不高的问题, 提出一种基于对称扰动采样的AC算法框架. 首先, 框架采用高斯分布作为策略分布, 在每一时间步对当前动作均值对称扰动, 从而生成两个动作与环境并行交互; 然后, 基于两者的最大时域差分(TD) 误差选取Agent 的行为动作, 并对值函数参数进行更新; 最后, 基于两者的平均常规梯度或增量自然梯度对策略参数进行更新. 理论分析和仿真结果表明, 所提框架具有较好的收敛性和计算效率.

下载地址

用户评论

更多下载

下载地址

立即下载

用户评论

基于对称扰动采样的Actor critic算法

针对传统Actor-critic (AC) 方法在求解连续空间序贯决策问题时收敛速度较慢、收敛质量不...

大小：237KB | 2021-01-17 00:40:08
actor critic public An Actor Critic Algorithm for Structured Prediction qu

actor-critic-public, "An Actor Critic Algorit...

大小：4.09MB | 2020-07-17 10:02:23
Soft Actor Critic SAC算法tensorflow实现

Soft Actor-Critic(SAC)算法tensorflow实现,SAC是深度强化学习中对于...

大小：19KB | 2020-08-16 01:27:00
基于Tile Coding编码和模型学习的Actor Critic算法

基于Tile Coding编码和模型学习的Actor-Critic算法，有较好的性能

大小：2.46MB | 2020-07-17 10:02:23
Soft Actor Critic.pdf

关于Soft Actor-Critic 的原始论文,适合初学者对深度强化学习Soft Actor-C...

大小：4.18MB | 2021-04-19 17:42:34
贝叶斯actor critic

内含论文BayesianPolicyGradientandActor-CriticAlgorithm...

大小：0B | 2020-04-24 03:42:01
1.actor critic.ipynb

关于actor-critic的例子，适合初学者对深度强化学习actor-critic的认识和了解

大小：31KB | 2020-07-17 10:02:29
Policy Gradient Actor Critic.pdf

Policy Gradient & Actor-Critic.pdf

大小：984KB | 2020-07-27 10:26:31
深度强化学习 - Actor-Critic

大小：0B | 2019-03-28 23:42:37
Sample Efficient Actor Critic with Experience Replay.pdf

Sample Efficient Actor-Critic with Experience Repl...

大小：1.77MB | 2020-07-17 04:03:38
Multi Agent Actor Critic for Mixed Cooperative Competitive Environments

Multi-Agent Actor-Critic for Mixed Cooperative-Com...

大小：1.43MB | 2021-04-08 11:09:24
Connecting Generative Adversarial Network and Actor Critic Methods.pdf

Connecting Generative Adversarial Network and Acto...

大小：125KB | 2021-04-09 15:25:19
一种自适应模糊Actor Critic学习

提出一种基于模糊RBF网络的自适应模糊Actor-Critic学习.采用一个模糊RBF 神经网络同时...

大小：320KB | 2021-02-23 06:25:48
强化学习深度学习Actor critic.ppt

由于实验室要求每周PPT分享汇报,在这一过程中,需要花费时间去整理强化学习,深度学习,Actor-...

大小：2.6MB | 2020-08-21 05:50:32
基于Actor Critic和神经网络的闭环脑机接口控制器设计

在皮层神经元放电活动模型的基础上进行单关节自发运动的研究,从控制理论的角度分析闭环脑机接口的工作原理...

大小：332KB | 2021-01-16 12:15:21
基于DSP的SPWM不对称规则采样算法的分析与实现

以高性能数字信号处理芯片TMS320F2812为核心,设计生成了基于不对称规则采样算法的SPWM波形...

大小：0B | 2019-07-28 19:20:33