reinforcement learning
PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.
- used by robotics 90%
- used by large-language models 80%
- used by Grpo 70%
- used by supervised fine-tuning 70%
- instance of robotics 70%
- used by Group Relative Policy Optimization 70%
- used by AlphaZero 70%
- used by vision-language model 70%
- affiliated with model predictive control 70%
- used by train of thought 70%
- affiliated with supervised fine-tuning 70%
- instance of Markov decision process 70%
- 2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源
19 天有情绪数据
-
New CEDGE framework uses diffusion models for off-dynamics reinforcement learning
Researchers have developed CEDGE, a novel framework for off-dynamics reinforcement learning that utilizes diffusion models to generate synthetic trajectories. This approach trains a diffusion model on source-domain data…
-
New GORMPO algorithm improves offline RL with generative density modeling
Researchers have developed a new offline reinforcement learning algorithm called Generative OOD-regularized Model-based Policy Optimization (GORMPO). This method integrates generative models to explicitly model density …
-
Reinforcement learning optimizes EV charging for lower emissions
Researchers have developed a new emission-aware reinforcement learning strategy to optimize electric vehicle charging. This approach, based on the Soft Actor Critic algorithm, prioritizes reducing carbon emissions and m…
-
AI research paper advocates for enactive perception and embodied interaction
This paper proposes integrating enactive approaches into artificial intelligence, viewing perception as an active, embodied engagement with the environment rather than passive input processing. It highlights four key en…
-
Neuro-inspired Inverter framework enhances AI planning and control
Researchers have developed a novel neuro-inspired framework called Inverter for embodied planning and control. This framework utilizes Inverse Learning (IL) to train components, bridging the gap between reinforcement le…
-
Quantum Frog game shows cooperation improves agent success
Researchers have developed a new cooperative game called Quantum Frog, inspired by Frogger, which uses a quantized-time mechanic where the environment only advances when a player acts. Using reinforcement learning, they…
-
Fireworks AI: 前沿强化学习基础设施成本低于预期
Fireworks AI 认为,关于前沿强化学习(RL)基础设施成本的传统观念存在缺陷。他们提出,与其在每次更新时传输整个多 TB 的模型检查点,不如只传输更改权重的增量。这种方法得到了经验观察和近期论文的支持,显著减少了数据传输量,使得跨区域同步在标准网络上可行。因此,这降低了在 AI 前沿竞争的门槛,挑战了只有少数大公司才能负担此类基础设施的观念。
-
AI自适应控制的争论:自学 vs. 人类规则
该集群讨论了AI中的自适应控制概念,特别关注强化学习。它提出了机器应该自主学习和适应还是严格遵守人类定义的规则的问题,并暗示了对自适应的偏好。
-
新的强化学习策略可实现游戏中可扩展、由个性驱动的NPC
研究人员开发了一种名为pcsp的新型强化学习策略,旨在实现生命模拟游戏中可扩展且可控的非玩家角色(NPC)。这一单一策略以个性描述的LLM嵌入为条件,可实现独特且一致的NPC行为。该方法在零样本个性识别方面显著优于随机水平,并且与基于LLM的策略相比,推理速度更快,证明了其在商业游戏引擎中的可行性。
-
RL框架在Tamarin中自动化安全协议分析
研究人员开发了一个强化学习(RL)框架,以自动化和缩短使用Tamarin工具分析安全协议的过程。这种受AlphaZero启发的创新方法采用神经启发式来指导蒙特卡洛树搜索,并从已完成的子证明中学习。在16个案例研究上的评估表明,与现有方法相比,RL方法能够自动找到更多证明并生成更短的证明,从而显著减少了协议验证所需的人工努力。
-
新的强化学习框架生成精确约束的图
研究人员开发了一个名为深度微正则图生成器(DMGG)的新强化学习框架,用于创建具有精确控制结构属性的图。与之前仅在期望值上强制执行约束的模型不同,该方法可以精确地强制执行约束。DMGG 利用策略引导搜索来高效生成具有特定关联性(一种度度相关性的度量)的图,显著加快了过程,并能够更准确地分析结构-功能关系。
-
CellFluxRL 使用强化学习创建生物学上准确的虚拟细胞
研究人员开发了 CellFluxRL,一个用于创建符合生物和物理约束的虚拟细胞的新框架。该方法使用具有生物学意义的奖励函数的强化学习来改进现有的生成模型。与前代模型相比,所得的 CellFluxRL 模型在生物功能、结构有效性和形态正确性方面得到了增强,朝着更具生物学意义的模拟迈进,可用于药物发现等应用。
-
新框架测试AI与传统网络拥塞控制器
研究人员开发了CCLab,一个旨在测试网络拥塞控制器(包括基于学习和传统算法)鲁棒性的新框架。该框架使用强化学习代理向输入信号或网络条件引入对抗性扰动。研究结果表明,虽然两种类型的控制器在攻击下都会退化,但基于学习的方法通常比人类设计的更具弹性。CCLab生成的对抗性跟踪也可用于训练更鲁棒的拥塞控制器。
-
TimeRewarder 从被动视频中学习密集奖励,用于强化学习
研究人员开发了 TimeRewarder,一种从被动视频中学习密集奖励信号的新颖方法。该技术通过对帧对之间的时间距离进行建模来估计任务进度,然后可以指导强化学习代理。在十个 Meta-World 任务上的实验表明,TimeRewarder 显著提高了成功率和样本效率,优于手动设计的奖励和以前的方法。该方法还展示了利用真实世界的人类视频进行可扩展奖励信号生成的潜力。
-
新界限增强了强化学习的统计推断能力
研究人员为马尔可夫链诱导的鞅开发了新的高维集中不等式和Berry-Esseen界。这些发现被应用于分析具有线性函数逼近的时间差(TD)学习,这是强化学习(RL)中的一种关键方法。该研究为TD学习提供了强大的一致性保证,并为TD估计量建立了$O(T^{-rac{1}{4}}\log T)$的分布收敛速率。
-
研究表明训练数据课程能微调强化学习代理的专业化
arXiv上的一项新研究探讨了不同的训练数据课程如何影响旨在与大型语言模型(LLM)和外部记忆库协同工作的强化学习(RL)代理的性能。研究发现,训练数据的构成显著影响代理的专业化,而非普遍提升性能。结合不同基准的混合课程产生了最佳的总体结果,而仅在狭窄的域外数据集上训练则特别提高了时间推理能力。
-
Reinforcement learning optimizes ion shuttling for quantum computers
Researchers have developed a novel reinforcement learning (RL) approach to optimize ion shuttling on trapped-ion quantum computers. This method addresses the high-dimensional optimization challenge that arises with incr…
-
人工智能通过自适应学习和动态场景增强严肃游戏
新章节探讨了人工智能在严肃游戏中的整合,旨在克服静态场景和创作瓶颈等限制。文章讨论了人工智能(包括大型语言模型和强化学习)如何实现动态场景变化、自适应节奏和更好的学习者建模。该章节还讨论了在这些系统中实施人工智能的挑战,例如确保有效性、透明度和学习者信任,同时承认关于长期学习成果的实证证据有限。
-
New Mem-π Framework Enhances LLM Agent Memory with Dynamic Guidance Generation
Researchers have developed Mem-π, a novel framework designed to enhance the adaptive memory capabilities of large language model (LLM) agents. Unlike traditional methods that rely on static retrieval from memory banks, …
-
Robot Tactile Olympiad benchmark accelerates blind manipulation tasks
Researchers have introduced roto 2.0, a new benchmark for tactile-based reinforcement learning in robotics. This benchmark utilizes GPU parallelism and focuses on end-to-end "blind" manipulation tasks across four differ…