English(EN) Negative Advantages Is a Double-Edged Sword: Calibrating advantages in GRPO for Search Agents

新的 CalibAdv 方法增强了搜索代理的训练稳定性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

一种名为 CalibAdv 的新方法已被开发出来，用于提高搜索代理的训练稳定性和性能，特别是那些使用组相对策略优化 (GRPO) 的代理。该方法解决了中间正确步骤因最终答案错误而受到惩罚以及训练可能变得不稳定导致性能下降的问题。CalibAdv 通过微调优势的分配来实现这一点，根据中间步骤的正确性来缩小过度的负面优势，并重新平衡正面和负面优势，以更稳定地模拟奖励和惩罚。 AI

影响提高了搜索代理的训练稳定性和性能，有望带来更可靠的 AI 驱动的搜索功能。

排序理由详细介绍训练 AI 模型新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jiayi Wu, Ruobing Xie, Zeqian Huang, Lei Jiang, Can Xu, Kangyang Luo, Bochen Lin, Ming Gao, Xiang Li · 2026-05-28 04:00

负面优势是一把双刃剑：校准 GRPO 在搜索代理中的优势

arXiv:2604.18235v2 Announce Type: replace-cross Abstract: Search agents achieve strong question-answering performance through multi-turn interactions with search engines, with Group Relative Policy Optimization (GRPO) being a widely used training algorithm. However, GRPO-style al…

报道来源 [1]

负面优势是一把双刃剑：校准 GRPO 在搜索代理中的优势

相关实体

相关话题