English(EN) Are Video Reasoning Models Ready to Go Outside?

新框架ROVA提升视频推理模型在真实世界干扰下的鲁棒性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

研究人员推出ROVA，一个旨在增强视频推理模型在面对天气、遮挡和相机运动等真实世界干扰时的鲁棒性的新训练框架。该框架采用一种难度感知在线训练策略，优先处理信息量大的样本，并使用一种自我反思式评估来通过鲁棒性感知一致性奖励进行自适应训练。为了评估这些模型，开发了一个名为PVRBench的新基准，该基准在具身视频数据集上模拟了真实的扰动。实验表明，ROVA显著减轻了性能下降，与基线模型相比提高了准确性和推理能力，并且这些提升能够迁移到标准基准上。 AI

影响增强了视频推理模型在现实世界应用中的可靠性，有可能改善其在复杂环境中的部署。

排序理由这是一篇介绍视频推理模型新训练框架和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yangfan He, Changgyu Boo, Jaehong Yoon · 2026-07-01 04:00

Are Video Reasoning Models Ready to Go Outside?

arXiv:2603.10652v3 Announce Type: replace-cross Abstract: In real-world deployment, vision-language models often encounter disturbances such as weather, occlusion, and camera motion. Under such conditions, their understanding and reasoning degrade substantially, revealing a gap b…

报道来源 [1]

Are Video Reasoning Models Ready to Go Outside?

相关话题