reinforcement learning
PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.
- instance of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY 95%
- used by large-language models 90%
- used by Grpo 90%
- used by Markov decision process 90%
- used by large language model 90%
- used by Soft Actor--Critic 90%
- developed by large-language models 70%
- developed by Grpo 70%
- used by robotics 70%
- used by supervised fine-tuning 70%
- used by Group Relative Policy Optimization 70%
- employs Diffusion Models 70%
- 2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源
27 天有情绪数据
-
vLLM V1引擎重写在后端修复后实现与V0的对等
Hugging Face的vLLM团队详细介绍了如何将他们新的V1引擎与V0参考模型对齐的过程,重点在于确保后端对等,然后再处理强化学习(RL)目标的变化。他们识别并修复了四个关键问题:处理已处理的logprobs的方式、V1特有的运行时默认值、inflight权重更新路径以及使用fp32作为最终投影层。这些修正对于恢复后端行为以匹配V0参考模型至关重要,从而能够准确评估RL目标调整。
-
Aura-CAPTCHA 使用RL和GAN进行自适应、多模态机器人检测
研究人员开发了Aura-CAPTCHA,一种旨在挫败机器人攻击的新型多模态验证系统。该系统结合了用于视觉挑战的生成对抗网络(GAN)、用于自适应难度的强化学习(RL)以及行为分析。它旨在提高人类成功率,同时降低与传统验证码相比的绕过率,尽管它承认对先进的大型模型代理存在漏洞。
-
研究发现,通过率奖励未能提升AI代码生成能力
一篇新的研究论文探讨了在代码生成任务的强化学习中使用通过率奖励的有效性。研究发现,虽然通过率奖励可以缓解稀疏奖励的问题,但在对照实验中,它们与二元奖励相比并不能持续提高性能。研究人员分析了奖励密度和梯度方向,得出结论认为通过率奖励通常校准不当,难以实现完全正确的进展,并可能导致冲突的优化信号。
-
范畴论框架被提议用于定义和比较通用人工智能架构
这篇工作论文提出了一种使用范畴论来比较不同通用人工智能(AGI)架构的正式框架。作者旨在为AGI系统提供一个统一的基础,整合结构、信息组织和智能体交互等方面。该框架旨在阐明各种AGI方法(如强化学习和主动推理)之间的共性和差异,并指导未来的研究。
-
新框架“机械良知”为人工智能提供轨迹级调控
一篇新论文介绍了一种名为“机械良知”(MC)的数学框架,旨在调控智能系统的行为,特别是在分布式协作智能(DCI)环境中。该框架旨在确保即使在不确定的情况下,个体代理的累积行为也不会导致全局上不可接受的结果。MC充当一个监管过滤器,通过最小程度地调整行为,使系统行为保持在定义的规范区域内,同时考虑认知不确定性并提供可计算的治理信号。
-
量子电路增强分层强化学习智能体,节省参数
研究人员开发了一种混合分层强化学习智能体,将变分量子电路集成到其架构中。该方法使用量子电路替代经典组件,用于特征提取和策略估计等任务。评估表明,量子特征提取器可以提高性能,同时显著减少可训练参数的数量,尽管量子选项值估计存在架构挑战。
-
ELVIS: Ensemble-Calibrated Latent Imagination for Long-Horizon Visual MPC
研究人员开发了ELVIS,一种用于强化学习中长时域视觉规划的新方法,该方法使用高斯混合模型预测控制器在扩展的rollout中维护多个假设。该方法在一个新论文中进行了详细介绍,还包含了一个不确定性感知的回报机制来稳定想象并限制复合误差。ELVIS在视觉控制任务上展示了最先进的性能,并有望在有遮挡的现实世界应用中发挥作用。另外,另一篇论文介绍了TRAP,一种通过操纵想象轨迹的排名来针对世界模型的后门攻击,该攻击已被证明会降低Dreamer…
-
RAST-MoE-RL框架通过专业AI专家提升网约车效率
研究人员开发了一个名为RAST-MoE-RL的新框架,以提高网约车服务的效率。该框架在深度强化学习中采用了专家混合(MoE)方法,以更好地处理网约车平台典型的复杂动态供需状况。通过允许专业专家适应不同的运营场景,该系统旨在减少匹配和接载延迟,其表现优于现有方法,且参数数量显著减少。
-
AI研究将奖励塑形与控制函数相结合,实现更安全的无人机导航
研究人员开发了一种新颖的无人机(UAV)导航方法,该方法将强化学习与控制Lyapunov和障碍函数相结合。该方法旨在通过整合基于潜在奖励塑形和形式化保证来提高任务效率和安全性。该系统在简化环境中进行训练,然后应用于复杂场景,展示了缩短任务时间和稳健的性能。
-
Infoprop Dyna 使 Mini Wheelbot 在 11 分钟内学会赛车
研究人员开发了一个名为 Infoprop Dyna 的新强化学习框架,允许机器人在现实世界交互中直接学习复杂任务,无需传统的基于物理的模拟器。该方法使 Mini Wheelbot(一种欠驱动的独轮机器人)在仅 11 分钟的实际运行时间内学会了在赛道上比赛。该方法对于具有快速、不稳定动力学的机器人特别有效,能将它们推向性能极限。
-
研究人员使用强化学习来改进多模态大语言模型在不平衡数据上的回归性能
研究人员开发了一个新框架,以改进多模态大语言模型(MLLMs)处理数值回归任务的能力,特别是那些数据分布不平衡的任务。现有的训练方法通常会导致在频率较低的数据点上表现不佳。所提出的解决方案使用具有批次级监督的分布感知强化学习方法,以更好地对齐预测和实际数据分布。实验表明,与标准的微调方法相比,在训练样本有限的情况下,性能有了显著提高。
-
新的Omni-Fake数据集对社交媒体上的多模态深度伪造检测进行基准测试
研究人员推出了Omni-Fake,这是一个新的基准数据集,旨在改进社交媒体上多模态深度伪造的检测。该数据集包含跨图像、音频、视频和音频-视频说话人脸模态的超过100万个样本,以及一个用于测试泛化能力的分布外基准。Omni-Fake还支持一个用于深度伪造的联合检测、定位和解释的协议,并引入了一个名为Omni-Fake-R1的基于强化学习的检测器,该检测器集成了跨模态线索,以获得更准确和可解释的结果。
-
新的LEGIT数据集使用问题树评分标准评估LLM法律推理
研究人员开发了LEGIT,这是一个包含24,000个法律推理实例的新数据集,旨在评估LLM生成的法律论证的质量。该数据集将法院判决转化为论证和结论的层级树,作为评估推理痕迹的评分标准。使用LEGIT进行的实验表明,LLM的法律推理受到问题覆盖率和正确性的显著影响,并且检索增强生成(RAG)和强化学习(RL)提供了互补的优势,RAG增强了整体能力,而RL以覆盖率为代价提高了正确性。
-
AI框架利用分层强化学习优化资源受限的疫情控制
研究人员开发了一个分层强化学习框架,用于优化跨多个集群的传染病疫情控制的有限资源分配。该方法使用一个全局控制器来管理总体需求,并使用局部策略来估计资源对各个集群的价值。在对SARS-CoV-2疫情的模拟中,该框架的表现优于现有方法20-30%,并证明了其管理多达40个并发集群的可扩展性。
-
强化学习、安全函数增强无人机导航
研究人员开发了一种新颖的自主无人机导航方法,可提高速度和安全性。该方法结合了强化学习、基于潜在奖励塑造、控制Lyapunov函数和控制障碍函数。该系统在一个简化的环境中进行训练,然后无需额外训练即可应用于复杂场景,在模拟中显示出缩短的任务时间和稳健的性能。
-
新研究推进了控制、因果关系和多目标学习的赌博机算法
多篇研究论文探讨了赌博机算法在各个领域的进展。一项研究引入了一个机器学习框架,用于流体式躁动多臂赌博机问题的最优控制,在机器维护和疫情控制等应用中实现了显著的加速。另一篇论文挑战了因果赌博机中图学习的最优性,提出了新的算法,绕过图恢复以改进遗憾最小化。进一步的研究探讨了多目标赌博机的复杂性,表明帕累托遗憾的规模与单目标问题相似,并研究了在具有动态代理人口的开放多代理系统中的赌博机学习。其他工作解决了具有对抗性上下文的约束上下文赌博机、…
-
AutoREC平台使用RL代理从EIS数据生成电路模型
研究人员开发了AutoREC,这是一个开源Python软件包,旨在自动从电化学阻抗谱(EIS)数据生成等效电路模型(ECM)。该平台利用强化学习,特别是带有优先经验回放的双深度Q网络,来解决手动ECM识别的局限性。训练好的RL代理在合成数据上表现出超过99.6%的成功率,并且能很好地泛化到各种实际电化学系统。
-
Transformer RL 优化 6G 网络功能链划分
研究人员开发了一个新的基于 Transformer 的 Actor-Critic 强化学习框架,以应对未来 6G 网络中服务功能链 (SFC) 划分的挑战。该方法利用自注意力机制对虚拟化网络功能 (VNF) 之间的相互依赖性进行建模,从而实现更高效、可扩展的网络服务配置。该框架还结合了 epsilon-LoPe 探索策略和渐进回报归一化,以提高训练稳定性和收敛性,并在模拟中展示出优于现有方法的性能。
-
OpAgent 在网页导航任务中成功率达到 71.6%
研究人员开发了 OpAgent,这是一种新颖的网页导航代理,它利用在线强化学习来克服静态数据集的局限性。该代理采用了一种分层多任务微调方法,结合了视觉语言模型和一个具有混合奖励机制的专业 RL 管道。OpAgent 在 WebArena 基准测试中表现出显著的性能提升,成功率达到 71.6%,超过了此前的最先进水平。
-
AI游戏通过互动问答教授网络安全防御
研究人员开发了一个名为可解释Q20网络安全推荐系统(EQ-20CR)的新型教育框架,该框架采用受游戏启发的វិធី来教授网络安全。该系统使用强化学习代理,通过一系列类似20个问题游戏的提问来识别证明防御措施所需的最小事实。这种互动方法旨在通过自适应地呈现信息和解释网络安全概念、攻击向量和防御策略来增强学习效果。