English(EN) AGPO: Asymmetric Group Policy Optimization for Verifiable Reasoning and Search Ads Relevance at JD

京东的AGPO通过非对称策略优化增强LLM推理和搜索广告

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员推出了一种新颖的强化学习技术——非对称分组策略优化（AGPO），旨在提高大型语言模型的推理能力。AGPO通过抑制错误路径并专注于稀有、正确的路径，来防止当前方法中常见的推理模式狭窄化。在数学基准测试上的实验表明，AGPO达到了最先进的准确率，并在大规模应用中提高了性能。该方法还被应用于优化京东的搜索广告相关性，为下游模型带来了显著的收益。 AI

影响这项新的优化技术可以提高LLM的推理准确性和效率，可能改善搜索相关性等领域的应用。

排序理由这是一篇详细介绍改进LLM推理新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yang Xu, Kun Yao, Yiming Deng, Zheng Fang, Kai Ming Ting, Ming Pang · 2026-05-08 04:00

AGPO: Asymmetric Group Policy Optimization for Verifiable Reasoning and Search Ads Relevance at JD

arXiv:2605.05826v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated notable success in enhancing the reasoning performance of large language models (LLMs). However, recent studies reveal that while current RLVR methods improve sa…

报道来源 [1]

AGPO: Asymmetric Group Policy Optimization for Verifiable Reasoning and Search Ads Relevance at JD

相关实体

相关话题