研究人员推出了一种名为结构化角色感知策略优化(SRPO)的新方法,以增强大型视觉语言模型(LVLMs)的推理能力。SRPO通过在token级别分配信用,区分负责视觉感知和负责推导答案的token,从而解决了当前强化学习技术的局限性。该方法通过使用自蒸馏对比来强调特定角色的信号,从而改进了现有的组相对策略优化(GRPO),在没有外部奖励模型的情况下提高了证据基础的推理能力。 AI
影响 这项研究引入了一种更细致的训练多模态模型的方法,有望带来更可靠、更可解释的AI推理。
排序理由 该集群描述了一篇提出新方法以提高AI模型能力的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
- Group Relative Policy Optimization (GRPO)
- large vision-language models (LVLMs)
- Structured Role-aware Policy Optimization (SRPO)
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →