研究人员推出OmniOPSD,一个旨在改进多模态大语言模型(MLLMs)强化学习的新框架,特别是在奖励稀疏性是重大挑战的复杂推理任务中。该方法采用理据特权的策略内自蒸馏,其中生成的理据作为教师模型的特权证据,而不是学生模型的直接模仿目标。在MER-UniBench基准上进行的实验表明,OmniOPSD取得了84.19的平均分,达到了最先进的性能,验证了这种理据特权教师指导的有效性。 AI
影响 该框架通过解决奖励稀疏性和标注成本问题,有望提高多模态LLM在复杂、以人为中心的任务中的推理能力。
排序理由 该集群包含一篇详细介绍新框架及其基准性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →