实体 reinforcement learning

reinforcement learning

PulseAugur coverage of reinforcement learning — every cluster mentioning reinforcement learning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

220

90 天内 220

发布 · 30天

90 天内 0

论文 · 30天

209

90 天内 209

层级分布 · 90 天

significant 2
research 82
tool 128
commentary 8

主题

论文 209
其他 112
模型发布 46
安全 40
产品 34
基础设施 10
观点 2
融资 2

关系

instance of SOFT ACTOR-CRITIC REINFORCEMENT LEARNING FOR ROBOTIC MANIPULATOR WITH HINDSIGHT EXPERIENCE REPLAY 95%
used by large-language models 90%
used by Grpo 90%
used by Markov decision process 90%
used by large language model 90%
used by Soft Actor--Critic 90%
developed by large-language models 70%
developed by Grpo 70%
used by robotics 70%
used by supervised fine-tuning 70%
used by Group Relative Policy Optimization 70%
employs Diffusion Models 70%

时间线

2026-05-18 research_milestone A new paper proposes a reinforcement learning framework for modeling customer trajectories in retail. 来源

情绪 · 30 天

27 天有情绪数据

最近 · 第 7/10 页 · 共 200 条

TOOL · CL_36050 · May 15 · 13:41

新方法通过小组修订增强视觉语言模型

研究人员引入了一种新的小组修订优化范式，以改进大型视觉语言模型中的目标级基础。该方法通过生成修订候选并量化其改进来解决现有强化学习方法中稀疏、响应级奖励的局限性。然后，系统利用这些信息性塑造信号来完善奖励并调节优势，从而在具有挑战性的基础任务上取得更好的学习成果。
TOOL · CL_36969 · May 15 · 11:02

RL代理控制GenAI访问以促进学生学习

一篇新的研究论文提出，在教育环境中使用强化学习来控制学生何时可以访问生成式AI工具。研究发现，与不受限制的使用相比，由RL代理管理的策略性访问时间可以提高学习收益和元认知准确性。与完全禁止AI访问相比，这种方法还减少了错误和任务完成时间，表明时机本身可以作为有效的教学支架。
TOOL · CL_36068 · May 15 · 09:56

新的E²PO框架增强了生成模型与人类偏好的对齐

研究人员引入了一个名为嵌入扰动探索偏好优化（E²PO）的新框架，以解决使用强化学习将生成模型与人类意图对齐的局限性。现有的GRPO等方法存在组内方差快速衰减的问题，这会阻碍学习信号并导致训练不稳定。E²PO通过在样本组内的嵌入层面引入结构化扰动来解决这个问题，确保了持续的方差，从而在整个训练过程中保持区分信号。实验表明，E²PO在实现更准确的人类偏好对齐方面优于当前基线。
TOOL · CL_36975 · May 15 · 09:26

可预测的动态环境中，拉马克遗传对机器人有益

研究人员探讨了拉马克遗传对机器人智能体在动态环境中的进化动力学的影响。他们的发现表明，拉马克遗传（后天获得的性状可以遗传给后代）的益处取决于环境变化的预测性和冲突程度。通过整合传感器来检测环境变化，机器人智能体能够更好地预测和适应新条件，从而恢复拉马克遗传的优势。
TOOL · CL_33404 · May 14 · 06:05

新框架结合知识与强化学习解决车辆路径问题

研究人员开发了一个新的框架来解决容量车辆路径问题（CVRP），这是一个复杂的物流挑战。他们的方法将基于知识的启发式方法与强化学习相结合，将问题分解为子问题，并使用动态规划来指导学习过程。与现有的基于学习的技术相比，该方法在各种 CVRP 场景中展示了改进的解决方案质量和泛化能力。
TOOL · CL_30955 · May 14 · 04:00

新框架统一采样和优化问题

本文介绍了多臂采样问题，这是一个新的框架，它借鉴了多臂老虎机问题，但侧重于采样而非优化。研究人员定义了遗憾度量并建立了下界，提出了一种接近最优遗憾度的算法。研究结果表明，采样所需的探索比优化少得多，这对神经网络采样器、熵正则化强化学习和RLHF等领域都有影响。
RESEARCH · CL_30827 · May 13 · 15:04

强化学习理论在Actor-Critic方法上实现新的样本复杂度

研究人员为强化学习中的离策略Actor-Critic方法建立了一个新的理论样本复杂度保证。该论文证明了在最少假设下找到$\\epsilon$-最优策略的第一个$\\tilde{\\mathcal{O}}(\\epsilon^{-2})$样本复杂度，具体要求仅为不可约马尔可夫链。这一成就与先前需要嵌套循环更新或更强的、依赖于算法的策略假设的工作形成对比。
TOOL · CL_29601 · May 13 · 04:50

CognitiveBotics 为自闭症儿童构建个性化 AI 内容引擎

CognitiveBotics 为自闭症儿童开发了一款个性化内容引擎，以应对学习偏好高度个体化差异的挑战。其 Modalities Engine 通过语音、视觉和动画呈现学习目标，并利用强化学习框架实时调整内容交付。一个关键的技术挑战在于创建定制的儿科语音识别模型，因为标准的成人导向 ASR 系统在儿童的语音频率上表现不佳。
TOOL · CL_32623 · May 13 · 03:36

新的采样方法稳定了大型语言模型的低精度强化学习

研究人员开发了自适应重要性采样（AIS）技术，以解决在大型语言模型强化学习中使用低精度 rollout 导致的训练不稳定性问题。该技术根据实时诊断动态调整梯度校正，平衡探索收益与偏差减少。当与 LLaDA-8B-Instruct 和 Qwen3 系列等模型集成时，AIS 在保持显著的低精度生成速度优势的同时，性能与更高精度的训练相当。
RESEARCH · CL_30625 · May 12 · 18:58

新框架通过价格预测优化强化学习交易代理

研究人员开发了FPILOT框架，该框架通过在推理时纳入价格预测来增强用于交易的强化学习代理。这种受模型预测控制启发的方法允许代理在无需重新训练的情况下，根据预测的未来价格轨迹优化其交易策略。在TradeMaster DJ30基准上的评估表明，在各种策略学习算法中，总回报和风险调整指标均得到了一致的改进。
TOOL · CL_29441 · May 12 · 17:23

AI发现具有许多几何实现的创纪录新图

研究人员开发了一种强化学习方法，用于构建具有高实现次数的最小刚性图。该方法使用Henneberg移动并利用策略网络优化实现计数不变量。该方法已成功匹配平面实现计数的已知最优值，并改进了球面实现计数的界限，识别出了创纪录的新图。
TOOL · CL_29442 · May 12 · 17:12

新的流图策略加速机器人领域的生成式AI

研究人员开发了一类新的生成策略，称为流图策略，旨在加速复杂控制问题中的动作生成。这些策略学会了在生成动态中进行大跨步，与传统方法相比显著降低了推理成本。该方法，称为流图Q-引导（FMQ），优化了离线到在线强化学习的适应性，并在机器人操作和运动任务上展示了最先进的性能。
RESEARCH · CL_29374 · May 12 · 16:34

强化学习方法大幅降低量子编译中的量子比特分配开销

研究人员开发了新的强化学习（RL）方法来解决量子计算编译中的量子比特分配问题。两种不同的方法，CO-MAP 和 QAP-Router，分别将该问题构建为组合优化或动态二次分配任务。这两种方法都利用在真实量子电路数据集上训练的强化学习策略，与现有编译器相比，在 SWAP 门开销和 CNOT 门数量方面均有显著降低。
TOOL · CL_29381 · May 12 · 16:16

RAW-Dream 通过任务无关的世界模型实现零样本VLA适应

研究人员推出了一种新方法 RAW-Dream，该方法通过在任务无关的世界模型中使用强化学习来适应新的视觉-语言-动作（VLA）模型。该方法利用在多样化、无任务行为上预训练的世界模型和现成的视觉-语言模型来生成奖励，从而将世界模型学习与特定任务依赖性分离开来。通过依赖于泛化的物理先验而不是特定任务的数据，RAW-Dream 能够实现 VLA 的零样本适应，并通过双重噪声验证机制显著提高可扩展性并减少世界模型幻觉。
TOOL · CL_28659 · May 12 · 15:10

强化学习奖励：设计智能体行为并避免漏洞

本文深入探讨了奖励函数在强化学习中的关键作用，解释了其设计如何直接影响智能体的行为。文章强调，不当定义的奖励函数可能导致意外后果以及被智能体利用的“创造性漏洞”。文章进一步探讨了密集奖励与稀疏奖励、回合回报和折扣回报等概念，并通过实际示例进行说明。
TOOL · CL_28331 · May 11 · 17:49

强化学习代理高效合成Clifford量子电路

研究人员开发了一种新颖的强化学习方法来合成Clifford量子电路。他们的方法利用了一个大小无关、等变的神经网络，该网络学习发现Clifford门的最佳序列。该代理表现出色，能在毫秒内找到六量子比特系统的近最优电路，并扩展到三十量子比特，性能优于现有合成器。
TOOL · CL_28282 · May 11 · 16:30

AI工具通过聊天机器人和心理健康检测提升校园福祉

研究人员开发了旨在通过增强反馈收集和心理健康检测来改善校园福祉的人工智能工具。TigerGPT是一款聊天机器人，利用大型语言模型进行个性化调查，实现了高可用性和满意度。AURA是一个强化学习框架，用于优化后续问题以提高对话质量。在干预方面，PsychoGPT是一个在临床指南上训练的大型语言模型，有助于进行痛苦分类和症状评分，并采用堆叠多模型推理方法来减少幻觉。
RESEARCH · CL_26359 · May 11 · 10:12

GPT-5 Mini 在 Agentick 基准测试中领先，但没有单一代理范式占主导地位

新的 Agentick 基准测试评估了 37 个任务中的各种 AI 代理，显示 GPT-5 Mini 取得了 0.309 的最高分。然而，没有一种单一的代理范式，包括强化学习、LLM、VLM 或混合方法，表现出主导地位。值得注意的是，在此次评估中，基于 ASCII 的代理的表现优于使用自然语言的代理。
RESEARCH · CL_27508 · May 11 · 08:28

MTA-RL框架通过多模态AI增强城市驾驶

研究人员开发了MTA-RL，一个新颖的框架，它集成了多模态Transformer-based 3D可供性与强化学习，以实现鲁棒的城市自动驾驶。该方法融合了RGB图像和LiDAR数据，以预测明确的、几何感知的可供性，为强化学习策略创建了一个结构化的观测空间。在CARLA模拟器中的评估表明，与现有基线相比，MTA-RL在样本效率、稳定性和零样本泛化方面表现更优。
TOOL · CL_27531 · May 11 · 06:14

新的强化学习算法自适应地分块动作以实现更好的学习

研究人员推出了一种新的强化学习算法——自适应动作分块（ACH），该算法可以动态调整动作序列的长度。与之前使用固定分块长度的方法不同，ACH使用Transformer架构同时估计多个分块长度的值。这使得智能体能够根据当前状态调整其分块策略，从而在各种任务中提高泛化能力和学习效率。

新方法通过小组修订增强视觉语言模型

RL代理控制GenAI访问以促进学生学习

新的E²PO框架增强了生成模型与人类偏好的对齐

可预测的动态环境中，拉马克遗传对机器人有益

新框架结合知识与强化学习解决车辆路径问题

新框架统一采样和优化问题

强化学习理论在Actor-Critic方法上实现新的样本复杂度

CognitiveBotics 为自闭症儿童构建个性化 AI 内容引擎

新的采样方法稳定了大型语言模型的低精度强化学习

新框架通过价格预测优化强化学习交易代理

AI发现具有许多几何实现的创纪录新图

新的流图策略加速机器人领域的生成式AI

强化学习方法大幅降低量子编译中的量子比特分配开销

RAW-Dream 通过任务无关的世界模型实现零样本VLA适应

强化学习奖励：设计智能体行为并避免漏洞

强化学习代理高效合成Clifford量子电路

AI工具通过聊天机器人和心理健康检测提升校园福祉

GPT-5 Mini 在 Agentick 基准测试中领先，但没有单一代理范式占主导地位

MTA-RL框架通过多模态AI增强城市驾驶

新的强化学习算法自适应地分块动作以实现更好的学习