研究人员引入了一种名为“最低质心”的新颖方法,以改进推理过程中从大型语言模型中选择高质量响应。该技术利用模型不确定性的时间结构(由“高熵阶段”(HEPs)表示)来计算每个生成响应的“熵质心”。通过选择熵质心最低的响应(这标志着早期探索后自信生成),该方法在各种任务和模型大小(从 14B 到 480B 参数)上都显示出一致的性能提升。 AI
影响 为 LLM 推理引入了一种新的内在奖励机制,有可能在没有外部奖励模型的情况下提高响应质量。
排序理由 该集群包含一篇 arXiv 预印本,详细介绍了一种改进 LLM 推理的新方法。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →