实体 Group Relative Policy Optimization

Group Relative Policy Optimization

PulseAugur coverage of Group Relative Policy Optimization — every cluster mentioning Group Relative Policy Optimization across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 79

发布 · 30天

90 天内 0

论文 · 30天

90 天内 77

层级分布 · 90 天

主题

论文 77
模型发布 60
产品 14
安全 9
其他 8
基础设施 5

关系

instance of Grpo 90%
used by CatalyzeX 80%
used by Grpo 70%
used by ALFWorld 70%
used by alphaXiv 70%
used by ScienceCast 70%
used by Gotit.pub 70%
used by Reinforcement Learning with Verifiable Rewards 70%
developed ALFWorld 70%
affiliated with DAPO++ 70%
developed Webshop 70%
uses Reinforcement Learning with Verifiable Rewards 70%

时间线

2026-06-16 research_milestone A research paper details the application of Group Relative Policy Optimization to enhance LLM event forecasting. 来源

情绪 · 30 天

18 天有情绪数据

最近 · 第 1/4 页 · 共 79 条

TOOL · CL_133532 · Jul 9 · 04:00

新框架EMO-R3增强多模态大语言模型的情感推理能力

研究人员推出了一种新颖的框架EMO-R3，旨在提高多模态大语言模型（MLLMs）的情感推理能力。该方法利用结构化情感思维实现循序渐进、可解释的情感推理，并结合反射式情感奖励机制，基于情感连贯性和视文一致性进行自我评估。实验表明，EMO-R3提高了MLLMs的可解释性和情商，在多项视觉情感理解基准测试中表现优于现有方法。
RESEARCH · CL_133155 · Jul 8 · 17:32

新的AdaPrefix-GRPO方法提升AI在难题上的推理能力

研究人员开发了一种名为AdaPrefix-GRPO的新技术，以改进语言模型在复杂推理任务上的训练。该方法在训练过程中自适应地调整提供给模型的参考解前缀量，旨在将成功率保持在梯度信号最强的约50%左右。一旦训练完成，模型无需此辅助即可解决问题，在具有挑战性的数学问题上显示出显著的准确性提升，尤其对较小的模型而言。
TOOL · CL_129019 · Jul 7 · 04:00

淘宝部署新AI框架以提升电商搜索相关性

研究人员开发了TaoSR-AGRL，一个旨在利用大型语言模型（LLMs）提升电商搜索结果相关性的新框架。这种自适应引导强化学习方法通过引入规则感知奖励塑造和自适应引导回放来增强复杂查询的推理能力，从而解决了当前方法的局限性。该框架在离线实验中表现优于现有基线，并已成功部署在淘宝上，影响了数亿用户的搜索结果。
TOOL · CL_128870 · Jul 7 · 04:00

TokAN框架使用自监督语音令牌进行口音归一化

研究人员开发了TokAN，一个新颖的口音归一化框架，可将非母语口音转换为标准口音，同时保留说话人身份。与需要并行L1-L2语音数据或在合成目标时出现质量下降的先前方法不同，TokAN利用自监督离散语音令牌。该系统采用自回归编码器-解码器模型进行令牌到令牌的转换，并结合强化学习进行训练后优化，进一步降低了词错误率。在七种英语口音上的实验表明，TokAN在口音减少和可懂度方面显著优于现有基线。
TOOL · CL_127059 · Jul 6 · 03:33

Domux 模型目标是实现边缘 AI 智能家居代理 <150ms 的延迟

Domux 是一个开源的、实验性的模型，专为低延迟的智能家居代理交互而设计，实现了低于 150ms 的端到端延迟。它基于 Gemma 4 E2B-IT 构建，专注于语义解析，将自然语言命令转换为结构化的、管道分隔的输出，以便下游系统（如 RPA 机器人或 IoT 中心）立即执行。这种方法优先考虑边缘设备的 [速度](https://www.google.com/search?q=speed) 和效率，在延迟敏感的应用中优于通用大语言模型。
RESEARCH · CL_128342 · Jul 6 · 00:00

TREK方法通过扩展探索支持来提升LLM推理能力

研究人员推出了一种新颖的分阶段程序TREK（Teacher-Routed Exploration via Forward KL），旨在增强语言模型的能力，特别是在复杂的推理任务中。TREK利用蒸馏并非为了直接模仿，而是为了扩展模型的探索支持，使其能够处理当前策略可能 falter 的提示。该方法在应用于Qwen3等模型时，在AIME 2024和AIME 2025等数学推理基准上显示出显著的改进，并且还提高了ALFWorld和Scien…
RESEARCH · CL_128779 · Jul 3 · 00:00

CONFLUX模型生成逼真的3D胸部CT扫描，并增强临床控制力

研究人员开发了CONFLUX，这是一种新颖的潜在扩散模型，用于合成具有特定临床属性的3D胸部CT扫描。该模型使用3D变分自编码器进行压缩，并使用整流流变换器进行生成，该生成过程以详细的放射学元数据为条件。额外的强化学习后训练阶段，使用组相对策略优化，显著增强了模型可靠生成所请求的临床发现的能力，与真实扫描相比，大大减少了差距。该项目还包括发布一个大型合成胸部CT数据集和一个交互式演示。
TOOL · CL_123338 · Jul 2 · 17:47

EAGLE-360框架利用全局先验知识推进360度视觉搜索

研究人员推出EAGLE-360，一个旨在改善360度全景环境中主动视觉搜索的新框架。与依赖零散局部视图的传统方法不同，EAGLE-360利用全局先验知识建立整体视角并迭代缩小搜索空间。该框架结合了RoPE Rolling来模拟连续全景拓扑，并使用监督微调（SFT）和组相对策略优化（GRPO）进行训练。这种方法在360度视觉搜索方面达到了新的最先进水平，准确性提高了约八倍，并增强了探索效率。
TOOL · CL_132261 · Jul 2 · 00:00

Rank-Then-Act框架在没有环境奖励的情况下学习控制策略

研究人员开发了一个名为Rank-Then-Act (RTA) 的新颖框架，使强化学习代理能够在没有显式环境奖励的情况下从视频演示中学习控制策略。RTA利用视觉语言模型作为序数评分器，预测视频序列中的进展。然后，该评分器用于生成基于相关性的强化学习奖励信号，该信号在各种任务和环境中表现出稳定的性能，包括离散控制基准和连续控制任务。
RESEARCH · CL_128948 · Jul 1 · 00:00

新研究探索 LLM 的高级推理策略和训练方法 · 已追踪 10 个来源

arXiv 上发布的多篇研究论文探讨了大语言模型 (LLM) 的高级推理能力。一篇论文介绍了“Refine Thought” (RT)，通过多次前向传播来增强嵌入模型的语义推理。另一篇综述将 LLM 推理策略分为快速、慢速和工具增强型方法，并与认知心理学进行了类比。进一步的研究调查了训练过程中潜在推理的忠实度、RL 训练后构建组合推理策略的有效性，以及一种名为 Pyligent 的用于纠错推理的训练框架。此外，一种名为 GeoSD 的…
RESEARCH · CL_121099 · Jul 1 · 00:00

VideoSearch-R1 框架通过潜在空间查询精炼视频搜索

研究人员推出 VideoSearch-R1，一个旨在改进视频检索与推理的新型代理框架。该系统通过迭代方式与视频搜索引擎交互，采用一种称为软查询精炼 (SQR) 的技术，在连续潜在空间中调整搜索查询。该框架使用组相对策略优化 (GRPO) 进行训练，并在视频语料库时刻检索 (VCMR) 基准测试中展现出最先进的性能，与传统的基于文本的查询精炼相比，所需的生成令牌更少。
TOOL · CL_121063 · Jul 1 · 00:00

新AI模型增强科学假设生成能力，并提供可追溯的推理过程

研究人员开发了Graph-PRefLexOR，一种新颖的、基于图的原生强化学习模型，旨在增强科学假设的生成能力。该模型使用Group Relative Policy Optimization (GRPO)进行微调，将推理过程分为机制探索、图构建、模式提取和假设合成等不同阶段。Graph-PRefLexOR在生成科学上有效且可追溯的假设方面表现出显著的改进，尤其是在材料科学和力学领域，其可追溯性和语义多样性比标准大型语言模型高出40-65%。
TOOL · CL_117541 · Jun 30 · 04:00

LLM 和 RL 在新的 RADIANT-PET 框架中增强 PET/CT 病灶分割

研究人员开发了 RADIANT-PET，一个用于改进肿瘤学 PET/CT 扫描中病灶分割的新框架。该系统将一个体素级分割模型与一个大型语言模型 (LLM) 集成，用于病灶级别的裁决。候选摄取区域被文本化描述，然后由 LLM 分类为真实病灶或假阳性，并可选择整合放射学报告以提高准确性。通过使用 Group Relative Policy Optimization 的强化学习进一步优化 LLM 的推理能力，旨在改进病灶分类和解剖部位分配。
TOOL · CL_117464 · Jun 30 · 04:00

新的BV-Blend框架稳定LLM对齐的无批评RL

研究人员开发了BV-Blend，一个旨在稳定无批评强化学习（RL）方法的新框架，特别适用于对齐大型语言模型。该方法通过结合不确定性加权历史基线来解决现有方法（如Group Relative Policy Optimization (GRPO)）中的不稳定性问题。BV-Blend将提示局部统计数据与语义集群条件化的历史矩相结合，使用源自均值代理标准误差的置信度权重。在可验证推理基准上的实验表明，BV-Blend提高了训练稳定性和性能，尤…
TOOL · CL_121137 · Jun 30 · 00:00

新恒等式统一三种语言模型训练方法

一篇新论文介绍了分组标准差恒等式（Group-Standard-Deviation Identity），证明了三种流行的语言模型训练方法——GRPO、Dr. GRPO 和 DAPO——本质上是对单个参数的调整：采样答案分歧的标准差。该恒等式揭示了标准差直接与训练更新的大小相关，一致同意不产生学习，而答案分歧则提供最重要的训练信号。研究通过 Big-Math 数据集和受控训练运行验证了这些发现，强调了该参数在决定学习效果和重点方面的关键作用。
RESEARCH · CL_119641 · Jun 29 · 18:19

新模型提供GRPO训练动力学的闭式分析

研究人员开发了一种用于群体相对策略优化（GRPO）训练动力学的闭式模型，超越了经验性描述。该新模型包含现有的单指数饱和定律，并引入了一个缓慢启动阶段，从而更全面地理解训练过程。该模型提供了稳定阈值和故障模式的预测，这些预测已在多个模型和群体规模上得到验证，拟合训练奖励数据的R^2值达到0.91或更高。
RESEARCH · CL_117429 · Jun 29 · 15:05

新的自动驾驶模型使用世界模型进行更安全、更鲁棒的规划 · 跟踪 2 个来源

两篇新的研究论文介绍了用于端到端自动驾驶的先进世界建模技术。OWMDrive 专注于 4D 占用世界模型，用于多步 3D 占用预测，以指导基于扩散的规划，旨在实现更具前瞻性和鲁棒性的轨迹生成，尤其是在挑战性场景中。ExploreVLA 将世界建模与强化学习相结合，以实现超越专家演示的策略探索，使用未来图像生成作为密集世界建模目标和新颖性检测的内在奖励信号。
RESEARCH · CL_115264 · Jun 26 · 14:58

新型EchoSonar-R模型通过多视图推理增强超声心动图分析

研究人员开发了EchoSonar-R，这是一种新颖的支持多视图推理的视觉语言模型，用于超声心动图分析。该模型旨在通过集成时空视频编码器和结构感知心脏检测器来改进疾病分类和报告生成。EchoSonar-R采用两阶段训练过程，包括监督微调和强化学习，通过基于视觉证据的推理轨迹来增强可解释性和临床医生的信任度。该模型在私有和公共基准测试中均显示出准确性显著提高，优于现有基线。
RESEARCH · CL_111298 · Jun 25 · 12:05

PortraitGen 框架提升 AI 生成肖像的逼真度

研究人员推出 PortraitGen，一个旨在提升逼真肖像生成效果的新框架。该方法解决了当前文本到图像的训练后技术存在的局限性，这些技术由于缺乏真实图像数据和特定的奖励机制，常常无法解决 AI 伪影和生物学上的不可能性。PortraitGen 将真实图像直接纳入训练过程，并采用双重奖励系统，结合 OmniReward 的通用质量和 AI-Portrait 的以人为中心的保真度。该框架还引入了 PortraitBench，一个专门用于肖…
TOOL · CL_106828 · Jun 21 · 23:27

新的ACOER方法稳定LLM的推理效率训练

研究人员开发了一种名为ACOER（自适应仅正确效率奖励）的新方法，以稳定大型语言模型用于高效推理的训练。现有的GRPO（组相对策略优化）等方法经常导致奖励崩溃，降低模型性能。ACOER通过将简洁奖励隔离到正确答案，并防止通过动态归一化和惩罚调整进行过度压缩来解决此问题。实验表明，ACOER在提高准确性的同时显著减少了令牌生成。

新框架EMO-R3增强多模态大语言模型的情感推理能力

新的AdaPrefix-GRPO方法提升AI在难题上的推理能力

淘宝部署新AI框架以提升电商搜索相关性

TokAN框架使用自监督语音令牌进行口音归一化

Domux 模型目标是实现边缘 AI 智能家居代理 <150ms 的延迟

TREK方法通过扩展探索支持来提升LLM推理能力

CONFLUX模型生成逼真的3D胸部CT扫描，并增强临床控制力

EAGLE-360框架利用全局先验知识推进360度视觉搜索

Rank-Then-Act框架在没有环境奖励的情况下学习控制策略

新研究探索 LLM 的高级推理策略和训练方法 · 已追踪 10 个来源

VideoSearch-R1 框架通过潜在空间查询精炼视频搜索

新AI模型增强科学假设生成能力，并提供可追溯的推理过程

LLM 和 RL 在新的 RADIANT-PET 框架中增强 PET/CT 病灶分割

新的BV-Blend框架稳定LLM对齐的无批评RL

新恒等式统一三种语言模型训练方法

新模型提供GRPO训练动力学的闭式分析

新的自动驾驶模型使用世界模型进行更安全、更鲁棒的规划 · 跟踪 2 个来源

新型EchoSonar-R模型通过多视图推理增强超声心动图分析

PortraitGen 框架提升 AI 生成肖像的逼真度

新的ACOER方法稳定LLM的推理效率训练