研究人员开发了MERA,一个新颖的元认知推理框架,旨在提高大型推理模型(LRMs)的效率和准确性。MERA通过将推理过程与控制机制解耦来解决LRMs中的“过度思考”问题,使模型能够更好地决定何时停止生成文本。该框架利用接管式管道创建监督数据,并采用控制段策略优化(CSPO)进行训练,最终实现更具成本效益和更精确的推理。 AI
影响 MERA控制推理的方法可以降低推理成本和延迟,使LLM在实际应用中更加实用。
排序理由 该集群包含一篇详细介绍大型推理模型新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →