研究人员推出了一种新颖的CARE框架,旨在优化多模态视频模型的推理长度。这种能力感知奖励塑造方法通过在模型能力增长时将其偏好从广泛探索转向高效推理来调整模型的训练。CARE对推理工作量进行归一化,并加强对挑战性样本的奖励信号,无缝集成到GRPO训练流程中,且不增加推理开销。实验表明,CARE在收敛时提高了准确性、稳定了训练并增强了代币效率,从而产生了更短、信息量更大的推理轨迹。 AI
影响 该框架通过优化多模态AI系统的推理过程,有望带来更高效、更准确的AI系统。
排序理由 该集群包含一篇研究论文,详细介绍了一种用于多模态视频推理模型的新框架。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →