研究人员推出ROVA,一个旨在增强视频推理模型在面对天气、遮挡和相机运动等真实世界干扰时的鲁棒性的新训练框架。该框架采用一种难度感知在线训练策略,优先处理信息量大的样本,并使用一种自我反思式评估来通过鲁棒性感知一致性奖励进行自适应训练。为了评估这些模型,开发了一个名为PVRBench的新基准,该基准在具身视频数据集上模拟了真实的扰动。实验表明,ROVA显著减轻了性能下降,与基线模型相比提高了准确性和推理能力,并且这些提升能够迁移到标准基准上。 AI
影响 增强了视频推理模型在现实世界应用中的可靠性,有可能改善其在复杂环境中的部署。
排序理由 这是一篇介绍视频推理模型新训练框架和基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →