新的SRPO方法增强了视觉语言模型的模态推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 05:37

研究人员推出了一种名为结构化角色感知策略优化（SRPO）的新方法，以增强大型视觉语言模型（LVLMs）的推理能力。SRPO通过在token级别分配信用，区分负责视觉感知和负责推导答案的token，从而解决了当前强化学习技术的局限性。该方法通过使用自蒸馏对比来强调特定角色的信号，从而改进了现有的组相对策略优化（GRPO），在没有外部奖励模型的情况下提高了证据基础的推理能力。 AI

影响这项研究引入了一种更细致的训练多模态模型的方法，有望带来更可靠、更可解释的AI推理。

排序理由该集群描述了一篇提出新方法以提高AI模型能力的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-08 05:37

面向多模态推理的结构化角色感知策略优化

Reinforcement learning from verifiable rewards (RLVR), especially with Group Relative Policy Optimization (GRPO), has shown strong potential for improving the reasoning capabilities of large vision-language models (LVLMs). However, in multimodal reasoning, final-answer rewards ar…

报道来源 [1]

面向多模态推理的结构化角色感知策略优化

相关话题