研究人员推出了一种名为 ConsistRoll 的新方法,旨在通过强制执行跨视图一致性来增强大型语言模型的多模态推理能力。该方法确保同一实例的语义不变视图产生一致的答案,从而解决了标准可验证奖励强化学习 (RLVR) 目标中的一个局限性。ConsistRoll 通过将原始视图和转换视图分组,仅当两个视图都正确且一致时才分配联合奖励,从而将此一致性偏差整合到 RLVR 训练中,在不增加额外生成开销或标注的情况下提高了各种推理领域的性能。 AI
影响 该方法通过确保对同一数据的不同视图产生一致的输出,有望实现更强大、更可靠的多模态人工智能系统。
排序理由 该集群包含一篇详细介绍多模态推理新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →