新的信用分配策略梯度方法改进检索系统训练

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-25 23:17

研究人员开发了一种名为“信用分配”策略梯度（CA-PG）的新型强化学习方法，以应对大规模检索系统中早期排序器（ESRs）训练的挑战。传统的策略梯度方法在实际应用中难以处理与候选集大小相关的高方差问题。CA-PG旨在通过基于目标项在任何候选集中被选中的概率来计算梯度，而不是整个集合的联合概率，从而降低这种方差。实验表明，这种方法可以提高收敛速度和训练稳定性，尤其是在大型候选集的情况下，这一点已通过合成和真实世界数据进行了验证。 AI

影响这种新方法有望提高检索系统训练的效率和稳定性，从而改进搜索和推荐引擎的性能。

排序理由这是一篇详细介绍改进机器学习模型新算法方法的学术论文。

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Udi Weinsberg · 2026-05-25 23:17

用于两阶段排序早期检索的信用分配策略梯度

Large-scale search, recommendation, and retrieval-augmented generation (RAG) systems typically employ a two-stage architecture: an early-stage ranker (ESR) generates a candidate set, which is subsequently re-ranked by a late-stage ranker (LSR). While there are many reinforcement …
arXiv stat.ML TIER_1 English(EN) · Haruka Kiyohara, Mihaela Curmei, Ariel Evnine, Shankar Kalyanaraman, Israel Nir, Ana-Roxana Pop, Nitzan Razin, Sarah Dean, Thorsten Joachims, Udi Weinsberg · 2026-05-27 04:00

Credit-assigned Policy Gradient for Early Stage Retrieval in Two-stage Ranking

arXiv:2605.26385v1 Announce Type: cross Abstract: Large-scale search, recommendation, and retrieval-augmented generation (RAG) systems typically employ a two-stage architecture: an early-stage ranker (ESR) generates a candidate set, which is subsequently re-ranked by a late-stage…

报道来源 [2]

用于两阶段排序早期检索的信用分配策略梯度

Credit-assigned Policy Gradient for Early Stage Retrieval in Two-stage Ranking

相关实体

相关话题