English(EN) CARE: Competence-Aware Reward Shaping for Adaptive Reasoning Length in Video-MLLMs

新的CARE框架优化视频多模态大模型的推理长度

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-18 08:28

研究人员推出了一种新颖的CARE框架，旨在优化多模态视频模型的推理长度。这种能力感知奖励塑造方法通过在模型能力增长时将其偏好从广泛探索转向高效推理来调整模型的训练。CARE对推理工作量进行归一化，并加强对挑战性样本的奖励信号，无缝集成到GRPO训练流程中，且不增加推理开销。实验表明，CARE在收敛时提高了准确性、稳定了训练并增强了代币效率，从而产生了更短、信息量更大的推理轨迹。 AI

影响该框架通过优化多模态AI系统的推理过程，有望带来更高效、更准确的AI系统。

排序理由该集群包含一篇研究论文，详细介绍了一种用于多模态视频推理模型的新框架。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CV TIER_1 English(EN) · Chengwen Liu, Hao Peng, Jisheng Dang, Hong Peng, Bin Hu, Tat-Seng Chua · 2026-06-19 04:00

CARE：面向视频多模态大模型自适应推理长度的竞争力感知奖励塑造

arXiv:2606.19927v1 Announce Type: new Abstract: In multimodal video reasoning, reinforcement learning-based methods typically rely on simplistic and inflexible reasoning-length control strategies that fail to adapt to the model's evolving competence. This mismatch may suppress ne…
arXiv cs.CV TIER_1 English(EN) · Tat-Seng Chua · 2026-06-18 08:28

CARE：面向视频多模态大模型自适应推理长度的竞争力感知奖励塑造

In multimodal video reasoning, reinforcement learning-based methods typically rely on simplistic and inflexible reasoning-length control strategies that fail to adapt to the model's evolving competence. This mismatch may suppress necessary exploration at early stages, while encou…

报道来源 [2]

CARE：面向视频多模态大模型自适应推理长度的竞争力感知奖励塑造

CARE：面向视频多模态大模型自适应推理长度的竞争力感知奖励塑造

相关实体

相关话题