一种名为 CalibAdv 的新方法已被开发出来,用于提高搜索代理的训练稳定性和性能,特别是那些使用组相对策略优化 (GRPO) 的代理。该方法解决了中间正确步骤因最终答案错误而受到惩罚以及训练可能变得不稳定导致性能下降的问题。CalibAdv 通过微调优势的分配来实现这一点,根据中间步骤的正确性来缩小过度的负面优势,并重新平衡正面和负面优势,以更稳定地模拟奖励和惩罚。 AI
影响 提高了搜索代理的训练稳定性和性能,有望带来更可靠的 AI 驱动的搜索功能。
排序理由 详细介绍训练 AI 模型新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →