研究人员开发了一种名为 ConPress 的新方法,以提高大型推理模型的效率。该技术利用了一种称为“自压缩”的现象,即模型在单个提示中呈现多个问题时,会自然地产生更短的推理轨迹。ConPress 利用这种多问题压力来微调模型,使其在没有外部监督的情况下生成简洁的推理轨迹。这种方法在推理代币使用量上显示出显著的减少,例如在 MATH500 基准测试上减少了 59%,同时保持了具有竞争力的准确性。 AI
影响 将推理代币使用量最多降低 59%,可能降低推理成本并提高模型速度。
排序理由 该集群包含一篇详细介绍提高 LLM 效率的新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →