研究人员为大型语言模型开发了一种新的代理行为,称为“计划”,它在检索开始前将复杂问题分解为有序的子问题。这种结构化方法旨在通过将每个搜索步骤锚定到预先设计的子问题上来改进多跳问答,防止因部分相关文档而偏离主题。研究发现,训练成功取决于模型特定的条件,如初始熵和稳定性,而不仅仅是奖励设计。为解决此问题,提出了一种自举范式,其中种子模型生成过滤后的轨迹以在目标模型中激活“计划”,从而无需蒸馏即可持续优于基线。 AI
排序理由 这是一篇详细介绍改进 LLM 代理新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →