English(EN) Learning Spatiotemporal Sensitivity in Video LLMs via Counterfactual Reinforcement Learning

新的CRPO方法增强了视频大语言模型的时空敏感性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-22 04:00

研究人员开发了一种名为反事实关系策略优化（CRPO）的新框架，以提高视频大语言模型（Video LLMs）的时空敏感性。该方法解决了Video LLMs依赖捷径而非准确跟踪视频动态的问题。CRPO采用双分支强化学习方法，并引入了新颖的反事实关系奖励（CRR），鼓励模型在视觉上下文改变时改变答案，从而防止依赖静态线索。 AI

影响这项研究可能带来更强大的视频理解模型，使其真正掌握时间动态，从而改进视频分析和内容理解等应用。

排序理由介绍视频大语言模型新方法和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Dazhao Du, Jian Liu, Jialong Qin, Tao Han, Bohai Gu, Fangqi Zhu, Yujia Zhang, Eric Liu, Xi Chen, Song Guo · 2026-05-22 04:00

Learning Spatiotemporal Sensitivity in Video LLMs via Counterfactual Reinforcement Learning

arXiv:2605.21988v1 Announce Type: new Abstract: Video large language models (Video LLMs) achieve strong benchmark accuracy, yet often answer video questions through shortcuts such as single-frame cues and language priors rather than by tracking spatiotemporal dynamics. This issue…

报道来源 [1]

Learning Spatiotemporal Sensitivity in Video LLMs via Counterfactual Reinforcement Learning

相关实体

相关话题