reinforcement learning
PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.
- instance of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY 95%
- used by large-language models 90%
- used by Grpo 90%
- used by Markov decision process 90%
- used by large language model 90%
- used by Soft Actor--Critic 90%
- developed by large-language models 70%
- developed by Grpo 70%
- used by robotics 70%
- used by supervised fine-tuning 70%
- used by Group Relative Policy Optimization 70%
- employs Diffusion Models 70%
- 2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源
27 天有情绪数据
-
AI研究论文提倡具身感知和具身交互
该论文提出将具身方法整合到人工智能中,将感知视为与环境的积极、具身参与,而不是被动输入处理。它强调了四个关键的具身概念:经验、行动-感知不可分割性、自主性和具身性,并认为包括大型语言模型在内的主流人工智能都忽视了这些概念。虽然强化学习通过其对行动和交互的关注分享了一些具身原则,但该论文建议需要更广泛地纳入具身思想,以实现更强大的人工智能。
-
受神经启发的逆向框架增强了AI规划与控制
研究人员开发了一个新颖的、受神经启发的框架,名为Inverter,用于具身规划与控制。该框架利用逆向学习(IL)来训练组件,通过对整个动作序列进行规划,弥合了强化学习与最优控制之间的差距。Inverter在各种基准任务上展示了比现有方法显著的性能提升,在推理过程中以显著更低的计算成本取得了更好的结果。
-
Quantum Frog 游戏显示合作可提高代理成功率
研究人员开发了一款名为 Quantum Frog 的新合作游戏,灵感来自 Frogger,它使用一种量化时间机制,即环境仅在玩家采取行动时才会推进。他们使用强化学习分析了游戏难度如何扩展,并发现“冲刺策略”是最佳策略。研究表明,与增加单人专家玩家的交通密度相比,增加一个不协调的第二玩家会显著增加难度。合作训练显著提高了联合成功率并缩短了回合长度,表明共享激励可以使代理在时间关键任务中保持一致。
-
AI 安全专家批评 Bengio 的“科学家 AI”计划
对 Yoshua Bengio 的“科学家 AI”提案的批评引发了对其对齐失败和实际可行性的担忧。作者认为,阻止 AI 进行探索性代理行为(科学发现的关键方面)将阻碍其进步,并可能导致不安全的结果。此外,基于关联概率而非真正因果推理的训练方法被视为根本性限制。尽管有这些批评,作者承认 Bengio 短期内对 LLM 进行微调以识别用户请求中潜在风险的计划的价值,并赞赏“随时准备”的框架。
-
Fireworks AI: 前沿强化学习基础设施成本低于预期
Fireworks AI 认为,关于前沿强化学习(RL)基础设施成本的传统观念存在缺陷。他们提出,与其在每次更新时传输整个多 TB 的模型检查点,不如只传输更改权重的增量。这种方法得到了经验观察和近期论文的支持,显著减少了数据传输量,使得跨区域同步在标准网络上可行。因此,这降低了在 AI 前沿竞争的门槛,挑战了只有少数大公司才能负担此类基础设施的观念。
-
AI自适应控制的争论:自学 vs. 人类规则
该集群讨论了AI中的自适应控制概念,特别关注强化学习。它提出了机器应该自主学习和适应还是严格遵守人类定义的规则的问题,并暗示了对自适应的偏好。
-
新的强化学习策略可实现游戏中可扩展、由个性驱动的NPC
研究人员开发了一种名为pcsp的新型强化学习策略,旨在实现生命模拟游戏中可扩展且可控的非玩家角色(NPC)。这一单一策略以个性描述的LLM嵌入为条件,可实现独特且一致的NPC行为。该方法在零样本个性识别方面显著优于随机水平,并且与基于LLM的策略相比,推理速度更快,证明了其在商业游戏引擎中的可行性。
-
RL框架在Tamarin中自动化安全协议分析
研究人员开发了一个强化学习(RL)框架,以自动化和缩短使用Tamarin工具分析安全协议的过程。这种受AlphaZero启发的创新方法采用神经启发式来指导蒙特卡洛树搜索,并从已完成的子证明中学习。在16个案例研究上的评估表明,与现有方法相比,RL方法能够自动找到更多证明并生成更短的证明,从而显著减少了协议验证所需的人工努力。
-
新的强化学习框架生成精确约束的图
研究人员开发了一个名为深度微正则图生成器(DMGG)的新强化学习框架,用于创建具有精确控制结构属性的图。与之前仅在期望值上强制执行约束的模型不同,该方法可以精确地强制执行约束。DMGG 利用策略引导搜索来高效生成具有特定关联性(一种度度相关性的度量)的图,显著加快了过程,并能够更准确地分析结构-功能关系。
-
CellFluxRL 使用强化学习创建生物学上准确的虚拟细胞
研究人员开发了 CellFluxRL,一个用于创建符合生物和物理约束的虚拟细胞的新框架。该方法使用具有生物学意义的奖励函数的强化学习来改进现有的生成模型。与前代模型相比,所得的 CellFluxRL 模型在生物功能、结构有效性和形态正确性方面得到了增强,朝着更具生物学意义的模拟迈进,可用于药物发现等应用。
-
新框架测试AI与传统网络拥塞控制器
研究人员开发了CCLab,一个旨在测试网络拥塞控制器(包括基于学习和传统算法)鲁棒性的新框架。该框架使用强化学习代理向输入信号或网络条件引入对抗性扰动。研究结果表明,虽然两种类型的控制器在攻击下都会退化,但基于学习的方法通常比人类设计的更具弹性。CCLab生成的对抗性跟踪也可用于训练更鲁棒的拥塞控制器。
-
TimeRewarder 从被动视频中学习密集奖励,用于强化学习
研究人员开发了 TimeRewarder,一种从被动视频中学习密集奖励信号的新颖方法。该技术通过对帧对之间的时间距离进行建模来估计任务进度,然后可以指导强化学习代理。在十个 Meta-World 任务上的实验表明,TimeRewarder 显著提高了成功率和样本效率,优于手动设计的奖励和以前的方法。该方法还展示了利用真实世界的人类视频进行可扩展奖励信号生成的潜力。
-
新界限增强了强化学习的统计推断能力
研究人员为马尔可夫链诱导的鞅开发了新的高维集中不等式和Berry-Esseen界。这些发现被应用于分析具有线性函数逼近的时间差(TD)学习,这是强化学习(RL)中的一种关键方法。该研究为TD学习提供了强大的一致性保证,并为TD估计量建立了$O(T^{-rac{1}{4}}\log T)$的分布收敛速率。
-
研究表明训练数据课程能微调强化学习代理的专业化
arXiv上的一项新研究探讨了不同的训练数据课程如何影响旨在与大型语言模型(LLM)和外部记忆库协同工作的强化学习(RL)代理的性能。研究发现,训练数据的构成显著影响代理的专业化,而非普遍提升性能。结合不同基准的混合课程产生了最佳的总体结果,而仅在狭窄的域外数据集上训练则特别提高了时间推理能力。
-
强化学习优化离子阱量子计算机的离子调运
研究人员开发了一种新颖的强化学习(RL)方法来优化离子阱量子计算机上的离子调运。该方法解决了随着离子数量增加而出现的高维优化挑战,其性能优于当前的启发式技术。RL方法在调运操作上实现了高达36.3%的减少,并且可以适应各种芯片架构,为设计未来的量子计算硬件提供了有价值的工具。
-
人工智能通过自适应学习和动态场景增强严肃游戏
新章节探讨了人工智能在严肃游戏中的整合,旨在克服静态场景和创作瓶颈等限制。文章讨论了人工智能(包括大型语言模型和强化学习)如何实现动态场景变化、自适应节奏和更好的学习者建模。该章节还讨论了在这些系统中实施人工智能的挑战,例如确保有效性、透明度和学习者信任,同时承认关于长期学习成果的实证证据有限。
-
新的Mem-π框架通过动态指导生成增强LLM代理记忆
研究人员开发了Mem-π,一个旨在增强大型语言模型(LLM)代理适应性记忆能力的新框架。与依赖于从记忆库中静态检索的传统方法不同,Mem-π采用一个独立的、专用的模型来动态生成上下文特定的指导。这种方法允许代理决定何时以及生成什么指导,从而实现更高效和相关的任务执行。在各种代理基准的评估中,Mem-π显示出显著的改进,特别是在网页导航任务中,与现有的记忆基线相比,其相对收益超过30%。
-
机器人触觉奥林匹克基准测试加速盲操任务
研究人员推出了 roto 2.0,一个用于机器人触觉强化学习的新基准测试。该基准测试利用 GPU 并行处理,专注于四种不同机器人形态的端到端“盲”操纵任务。该团队展示了显著的性能提升,其智能体在 10 秒内完成了 13 次保龄球旋转,速度远超现有方法。通过开源环境和基线模型,他们旨在降低该领域研究人员的入门门槛。
-
强化学习优化城市街道设计和交通信号灯
研究人员开发了DeCoR,一个新颖的强化学习框架,旨在优化城市街道设计和交通信号控制。该系统首先通过将行人网络编码为图来学习生成最优的过街设施布局。随后,它开发自适应信号配时,以最大限度地减少行人和车辆的延误。在真实城市走廊的模拟中,DeCoR显著减少了行人等待时间并改善了交通流量,证明了其对不同需求和布局变化的鲁棒性。
-
新的强化学习策略通过一次性生成控制提高效率
研究人员开发了新的强化学习策略方法,旨在提高效率和表达能力。一种方法,基于分数的一次性均值流策略优化(SOM),使用Q函数分数和概率流ODE构建目标速度场,通过减少训练和推理时间,在在线强化学习中实现了最先进的性能。另一项开发,随机均值流策略(SMFP),提供了一个一次性生成策略类别,通过均值流变换将噪声映射到动作,为离策略设置中稳定和探索性的策略改进提供了统一的目标。