实体 Deep Deterministic Policy Gradient

Deep Deterministic Policy Gradient

PulseAugur coverage of Deep Deterministic Policy Gradient — every cluster mentioning Deep Deterministic Policy Gradient across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 12

发布 · 30天

90 天内 0

论文 · 30天

90 天内 12

层级分布 · 90 天

主题

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 12 条

RESEARCH · CL_147870 · Jul 16 · 04:00

深度强化学习实现牙齿对齐规划自动化

研究人员开发了一种新颖的深度强化学习框架，用于自动化数字正畸的3D几何牙齿对齐轨迹规划。该系统将规划构建为马尔可夫决策过程，利用基于Transformer的智能体和动态掩码方案来管理复杂的空间交互并确保路径效率，同时避免碰撞。两阶段课程学习策略进一步提高了训练稳定性和路径发现能力。在10,000个专家设计的治疗计划数据集上进行的评估表明，该方法在安全性与几何效率方面优于现有基线。
RESEARCH · CL_141049 · Jul 13 · 02:10

使用强化学习的扩展平均场控制新框架

研究人员为连续时间扩展平均场控制问题开发了一个新颖的无模型强化学习框架。该方法利用确定性反馈策略，通过直接诱导状态-动作分布来简化优化。该框架建立了McKean-Vlasov动力学的无模型敏感性公式，并在Wasserstein空间上推导了确定性策略梯度。它结合了局部值和优势率表示，从而得到一个同时包含动作和度量导数项的策略梯度，并通过连续时间深度确定性策略梯度算法实现。
TOOL · CL_133492 · Jul 9 · 04:00

强化学习智能体在发现金融市场操纵方面展现出潜力

研究人员调查了强化学习（RL）智能体在识别和利用金融市场价格操纵方面的有效性。他们利用 Almgren-Chriss 框架进行的一项研究发现，一种无模型 RL 智能体，特别是深度确定性策略梯度（Deep Deterministic Policy Gradient），在有限的训练数据下能够成功发现有利可图的操纵策略。与传统的基于模型的方法相比，当参数估计受到采样误差影响时，这种 RL 方法表现出更优越的性能，突显了 RL 在复杂控制问题…
RESEARCH · CL_131344 · Jul 7 · 15:24

机器人学会了在杂乱环境中安全地投掷物体

研究人员开发了一种新的机器人投掷方法，可以安全地导航杂乱的环境。该方法使用势场状态表示来指导强化学习策略，使机器人能够泛化到各种障碍物配置。该方法使用运动学演示进行初始化，并使用SAC、DDPG和TD3算法进行优化，在具有未见过物体和杂乱场景的真实世界实验中取得了高达90%的成功率。
RESEARCH · CL_122976 · Jul 2 · 04:51

新的后门攻击方法针对语音分类模型

研究人员开发了针对语音分类模型创建复杂后门攻击的新方法。一种方法 DRL-CLBA 使用强化学习嵌入触发器，在不改变原始标签的情况下导致错误分类，证明了其对各种防御措施的有效性。另一种方法 Pmeta-TLA 采用元学习和新颖的音色泄露攻击 (TLA) 同时嵌入多个后门，实现了高攻击效率和隐蔽性。
TOOL · CL_98015 · Jun 18 · 04:00

新的强化学习框架增强了多燃料发动机的燃烧控制

研究人员开发了一个新的强化学习框架，以改进多燃料压燃发动机的燃烧相位控制。该系统解决了燃料反应活性不确定和时变的问题，燃料反应活性通过十六烷值（CN）量化，这使得精确控制变得复杂。所提出的框架利用门控循环单元（GRU）从燃烧历史中学习燃料反应活性的紧凑表示，使控制策略能够基于此估算信号做出决策，而不是依赖于一个预知的CN值。这种方法旨在防止训练-部署不一致，并实现稳定的CA50调节，即使在CN快速变化的情况下也能实现低跟踪误差。
RESEARCH · CL_98173 · Jun 17 · 13:43

无模型强化学习控制器增强网络物理系统抵御攻击的能力 · arXiv论文

一篇新发表在arXiv上的研究论文探讨了无模型强化学习（RL）控制器在增强网络物理系统抵御网络攻击韧性方面的有效性。该研究分析了四种RL奖励类型，发现Lyapunov奖励在最小化跟踪误差的同时提供了卓越的韧性。近端策略优化（PPO）的表现优于深度确定性策略梯度（DDPG），显著降低了关键绩效指标的方差。
RESEARCH · CL_81971 · Jun 3 · 06:49

深度MARL定价模型显示失效模式，提出部分修复方案

研究人员在应用于异步定价市场的深度多智能体强化学习（MARL）中识别出两种失效模式。这些模式包括竞争智能体之间的默契卡特尔形成以及高事件率下的Actor-Critic不稳定性。该研究提出了一种涉及异步和延迟的部分修复方案，该方案显著减少了串通行为，但未能完全解决不稳定性问题。
TOOL · CL_53694 · May 27 · 04:00

深度强化学习算法在资源控制基准测试中难以超越校准基线

一项新的基准研究RLScale-Bench已被开发出来，用于评估用于自适应资源控制的深度强化学习（DRL）算法。研究发现，在各种工作负载下，一个经过适当校准的基于规则的自动扩展器在成本方面通常优于主流DRL算法。然而，DRL算法在处理突发流量和闪购流量方面显示出潜力。研究还强调，离散动作算法在避免约束违规方面明显优于连续动作算法，并且没有一种DRL算法在所有测试的工作负载中都占主导地位。
RESEARCH · CL_42523 · May 20 · 14:07

新的YANN-RL方法加速了化工过程的AI控制

研究人员开发了一种名为Y-wise Affine Neural Network (YANN-RL) 的新强化学习（RL）方法，专为化工过程系统中的控制而设计。该方法旨在克服该领域RL通常面临的信任和训练时间长的挑战。通过为控制方案提供自信且可解释的起点，YANN-RL在涉及CSTR、四罐系统和萃取塔的案例研究中展示了缩短的训练时间和减少的数据需求。
TOOL · CL_32684 · May 14 · 12:39

深度学习模型在罪犯识别中准确率达95%

研究人员开发了一种新的深度学习方法，使用深度确定性策略梯度（DDPG）算法来识别犯罪调查中的罪犯。该方法在犯罪现场数据、目击者陈述和嫌疑人档案上训练DDPG模型，以最大化识别罪犯的可能性并减少噪音。研究表明，这种基于DDPG的方法在识别罪犯方面达到了惊人的95%准确率，优于几种现有技术。
TOOL · CL_18831 · May 6 · 04:00

强化学习利用对称性和数据增强实现更快的飞机控制

研究人员开发了一种新的离线强化学习方法，该方法利用动力学系统的对称性来提高样本效率。该方法使用对称数据增强来增强深度确定性策略梯度算法中的状态-动作空间覆盖率。具有一个在增强样本上训练的批评者的双批评者结构进一步提高了样本利用率，从而在模拟中实现了更快的策略收敛，尤其是在飞机姿态控制方面。

深度强化学习实现牙齿对齐规划自动化

使用强化学习的扩展平均场控制新框架

强化学习智能体在发现金融市场操纵方面展现出潜力

机器人学会了在杂乱环境中安全地投掷物体

新的后门攻击方法针对语音分类模型

新的强化学习框架增强了多燃料发动机的燃烧控制

无模型强化学习控制器增强网络物理系统抵御攻击的能力 · arXiv论文

深度MARL定价模型显示失效模式，提出部分修复方案

深度强化学习算法在资源控制基准测试中难以超越校准基线

新的YANN-RL方法加速了化工过程的AI控制

深度学习模型在罪犯识别中准确率达95%

强化学习利用对称性和数据增强实现更快的飞机控制