研究人员开发了AdaptR1,一个新颖的框架,它使用强化学习来优化大型语言模型在多跳问答中的推理。与先前在查询级别做出单一决策的方法不同,该方法在每个步骤动态分配推理预算。AdaptR1显著减少了生成的“思考令牌”数量,从而降低了推理成本,同时在HotpotQA等任务上保持或提高了性能。 AI
影响 通过优化令牌使用,降低了复杂大型语言模型推理任务的推理成本。
排序理由 该集群包含一篇详细介绍大型语言模型新研究框架的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →