实体 reinforcement learning

reinforcement learning

PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

142

90 天内 142

发布 · 30天

90 天内 0

论文 · 30天

135

90 天内 135

层级分布 · 90 天

significant 2
research 54
tool 82
commentary 4

关系

instance of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY 95%
used by robotics 90%
used by large-language models 80%
used by Grpo 70%
used by supervised fine-tuning 70%
instance of robotics 70%
used by Group Relative Policy Optimization 70%
instance of Markov decision process 70%
used by vision-language model 70%
used by AlphaZero 70%
used by train of thought 70%
affiliated with model predictive control 70%

时间线

2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源

情绪 · 30 天

19 天有情绪数据

最近 · 第 3/8 页 · 共 142 条

TOOL · CL_35221 · May 17 · 03:42

新 PRISM 框架纠正多模态大模型训练中的 SFT 缺陷

来自香港科技大学（广州）等机构的新研究揭示了多模态大语言模型（MLLMs）常见训练范式中的一个关键缺陷。监督微调（SFT）后进行强化学习（RL）的标准方法，可能会通过引入分布漂移而无意中损害模型性能，导致模型表面上模仿正确答案而非真正理解它们。这个问题在更强的模型中尤为突出，因为 SFT 可能会在 RL 开始之前就降低模型能力。提出的 PRISM 框架通过在 SFT 和 RL 之间插入一个分布对齐阶段来解决这个问题，使用一种新颖的混合…
TOOL · CL_34696 · May 16 · 15:18

开发者使用领域随机化训练鲁棒性强化学习智能体

一位开发者在利用领域随机化训练强化学习智能体方面取得了进展。该技术有助于创建更鲁棒的智能体，开发者已成功实施该技术以提高机器人处理推搡的能力。此外，相关 Arduino 代码中的后处理步骤已大大减少。
TOOL · CL_36050 · May 15 · 13:41

New method enhances vision-language models with group revision

Researchers have introduced a new group-revision optimization paradigm to improve object-level grounding in large vision-language models. This method addresses the limitations of sparse, response-level rewards in existi…
TOOL · CL_36969 · May 15 · 11:02

RL代理控制GenAI访问以促进学生学习

一篇新的研究论文提出，在教育环境中使用强化学习来控制学生何时可以访问生成式AI工具。研究发现，与不受限制的使用相比，由RL代理管理的策略性访问时间可以提高学习收益和元认知准确性。与完全禁止AI访问相比，这种方法还减少了错误和任务完成时间，表明时机本身可以作为有效的教学支架。
TOOL · CL_36068 · May 15 · 09:56

New E²PO framework enhances generative model alignment with human preference

Researchers have introduced a new framework called Embedding-perturbed Exploration Preference Optimization (E²PO) to address limitations in aligning generative models with human intent using reinforcement learning. Exis…
TOOL · CL_36975 · May 15 · 09:26

可预测的动态环境中，拉马克遗传对机器人有益

研究人员探讨了拉马克遗传对机器人智能体在动态环境中的进化动力学的影响。他们的发现表明，拉马克遗传（后天获得的性状可以遗传给后代）的益处取决于环境变化的预测性和冲突程度。通过整合传感器来检测环境变化，机器人智能体能够更好地预测和适应新条件，从而恢复拉马克遗传的优势。
TOOL · CL_33404 · May 14 · 06:05

New framework combines knowledge and RL for vehicle routing problems

Researchers have developed a new framework for solving the Capacitated Vehicle Routing Problem (CVRP), a complex logistics challenge. Their approach integrates knowledge-based heuristics with reinforcement learning, bre…
TOOL · CL_30955 · May 14 · 04:00

New framework unifies sampling and optimization problems

This paper introduces the multi-armed sampling problem, a new framework that mirrors the multi-armed bandit problem but focuses on sampling rather than optimization. Researchers have defined regret measures and establis…
RESEARCH · CL_30827 · May 13 · 15:04

强化学习理论在Actor-Critic方法上实现新的样本复杂度

研究人员为强化学习中的离策略Actor-Critic方法建立了一个新的理论样本复杂度保证。该论文证明了在最少假设下找到$\\epsilon$-最优策略的第一个$\\tilde{\\mathcal{O}}(\\epsilon^{-2})$样本复杂度，具体要求仅为不可约马尔可夫链。这一成就与先前需要嵌套循环更新或更强的、依赖于算法的策略假设的工作形成对比。
TOOL · CL_29601 · May 13 · 04:50

CognitiveBotics 为自闭症儿童构建个性化 AI 内容引擎

CognitiveBotics 为自闭症儿童开发了一款个性化内容引擎，以应对学习偏好高度个体化差异的挑战。其 Modalities Engine 通过语音、视觉和动画呈现学习目标，并利用强化学习框架实时调整内容交付。一个关键的技术挑战在于创建定制的儿科语音识别模型，因为标准的成人导向 ASR 系统在儿童的语音频率上表现不佳。
TOOL · CL_32623 · May 13 · 03:36

新的采样方法稳定了大型语言模型的低精度强化学习

研究人员开发了自适应重要性采样（AIS）技术，以解决在大型语言模型强化学习中使用低精度 rollout 导致的训练不稳定性问题。该技术根据实时诊断动态调整梯度校正，平衡探索收益与偏差减少。当与 LLaDA-8B-Instruct 和 Qwen3 系列等模型集成时，AIS 在保持显著的低精度生成速度优势的同时，性能与更高精度的训练相当。
RESEARCH · CL_30625 · May 12 · 18:58

新框架通过价格预测优化强化学习交易代理

研究人员开发了FPILOT框架，该框架通过在推理时纳入价格预测来增强用于交易的强化学习代理。这种受模型预测控制启发的方法允许代理在无需重新训练的情况下，根据预测的未来价格轨迹优化其交易策略。在TradeMaster DJ30基准上的评估表明，在各种策略学习算法中，总回报和风险调整指标均得到了一致的改进。
TOOL · CL_29441 · May 12 · 17:23

AI finds new record graphs with many geometric realizations

Researchers have developed a reinforcement-learning method to construct minimally rigid graphs with a high number of realizations. This approach uses Henneberg moves and optimizes realization-count invariants with a pol…
TOOL · CL_29442 · May 12 · 17:12

新的流图策略加速机器人领域的生成式AI

研究人员开发了一类新的生成策略，称为流图策略，旨在加速复杂控制问题中的动作生成。这些策略学会了在生成动态中进行大跨步，与传统方法相比显著降低了推理成本。该方法，称为流图Q-引导（FMQ），优化了离线到在线强化学习的适应性，并在机器人操作和运动任务上展示了最先进的性能。
RESEARCH · CL_29374 · May 12 · 16:34

RL methods slash qubit allocation overhead in quantum compilation

Researchers have developed new reinforcement learning (RL) methods to address the qubit allocation problem in quantum computing compilation. Two distinct approaches, CO-MAP and QAP-Router, frame the problem as a combina…
TOOL · CL_29381 · May 12 · 16:16

RAW-Dream 通过任务无关的世界模型实现零样本VLA适应

研究人员推出了一种新方法 RAW-Dream，该方法通过在任务无关的世界模型中使用强化学习来适应新的视觉-语言-动作（VLA）模型。该方法利用在多样化、无任务行为上预训练的世界模型和现成的视觉-语言模型来生成奖励，从而将世界模型学习与特定任务依赖性分离开来。通过依赖于泛化的物理先验而不是特定任务的数据，RAW-Dream 能够实现 VLA 的零样本适应，并通过双重噪声验证机制显著提高可扩展性并减少世界模型幻觉。
TOOL · CL_28659 · May 12 · 15:10

Reinforcement learning rewards: Designing agent behavior and avoiding loopholes

This article delves into the critical role of reward functions in reinforcement learning, explaining how their design directly influences an agent's behavior. It highlights that improperly defined reward functions can l…
TOOL · CL_28331 · May 11 · 17:49

Reinforcement learning agent synthesizes Clifford quantum circuits efficiently

Researchers have developed a novel reinforcement learning approach for synthesizing Clifford quantum circuits. Their method utilizes a size-agnostic, equivariant neural network that learns to discover optimal sequences …
TOOL · CL_28282 · May 11 · 16:30

AI工具通过聊天机器人和心理健康检测提升校园福祉

研究人员开发了旨在通过增强反馈收集和心理健康检测来改善校园福祉的人工智能工具。TigerGPT是一款聊天机器人，利用大型语言模型进行个性化调查，实现了高可用性和满意度。AURA是一个强化学习框架，用于优化后续问题以提高对话质量。在干预方面，PsychoGPT是一个在临床指南上训练的大型语言模型，有助于进行痛苦分类和症状评分，并采用堆叠多模型推理方法来减少幻觉。
RESEARCH · CL_26359 · May 11 · 10:12

GPT-5 Mini 在 Agentick 基准测试中领先，但没有单一代理范式占主导地位

新的 Agentick 基准测试评估了 37 个任务中的各种 AI 代理，显示 GPT-5 Mini 取得了 0.309 的最高分。然而，没有一种单一的代理范式，包括强化学习、LLM、VLM 或混合方法，表现出主导地位。值得注意的是，在此次评估中，基于 ASCII 的代理的表现优于使用自然语言的代理。

新 PRISM 框架纠正多模态大模型训练中的 SFT 缺陷

开发者使用领域随机化训练鲁棒性强化学习智能体

New method enhances vision-language models with group revision

RL代理控制GenAI访问以促进学生学习

New E²PO framework enhances generative model alignment with human preference

可预测的动态环境中，拉马克遗传对机器人有益

New framework combines knowledge and RL for vehicle routing problems

New framework unifies sampling and optimization problems

强化学习理论在Actor-Critic方法上实现新的样本复杂度

CognitiveBotics 为自闭症儿童构建个性化 AI 内容引擎

新的采样方法稳定了大型语言模型的低精度强化学习

新框架通过价格预测优化强化学习交易代理

AI finds new record graphs with many geometric realizations

新的流图策略加速机器人领域的生成式AI

RL methods slash qubit allocation overhead in quantum compilation

RAW-Dream 通过任务无关的世界模型实现零样本VLA适应

Reinforcement learning rewards: Designing agent behavior and avoiding loopholes

Reinforcement learning agent synthesizes Clifford quantum circuits efficiently

AI工具通过聊天机器人和心理健康检测提升校园福祉

GPT-5 Mini 在 Agentick 基准测试中领先，但没有单一代理范式占主导地位