Video-MLLMs
PulseAugur coverage of Video-MLLMs — every cluster mentioning Video-MLLMs across labs, papers, and developer communities, ranked by signal.
3 天有情绪数据
-
新的SER方法通过语义证据奖励增强视频MLLM推理 · 跟踪4个来源
研究人员开发了一种名为语义证据奖励(SER)的新方法,以提高视频多模态大语言模型(Video MLLMs)的时空推理能力。现有模型在细粒度推理方面常常遇到困难,有时会使用不相关的帧或对象来回答问题。SER通过将证据定位重构为验证任务来解决这个问题,使用一个裁判VLM来评估生成证据的相关性和定位质量,从而减少对密集标注的需求。这种方法通过在V-STAR基准上提高3.0个点来增强答案准确性和证据定位,如所证明的。
-
新的CARE框架优化视频多模态大模型的推理长度
研究人员推出了一种新颖的CARE框架,旨在优化多模态视频模型的推理长度。这种能力感知奖励塑造方法通过在模型能力增长时将其偏好从广泛探索转向高效推理来调整模型的训练。CARE对推理工作量进行归一化,并加强对挑战性样本的奖励信号,无缝集成到GRPO训练流程中,且不增加推理开销。实验表明,CARE在收敛时提高了准确性、稳定了训练并增强了代币效率,从而产生了更短、信息量更大的推理轨迹。
-
新的CF-GRPO框架增强了多模态大语言模型的视频推理能力
研究人员推出了一种新颖的奖励框架——共识帧GRPO(CF-GRPO),旨在增强视频多模态大语言模型(Video-MLLMs)的推理能力。该框架无需时间标注,而是从内在视频线索中构建共识帧先验。然后,CF-GRPO根据视觉和响应表示计算帧使用分数,并通过共识帧奖励(CFR)优化它们的匹配度。该方法旨在提供更清晰的奖励信号,提高在视频推理基准上的性能,并提供训练过程中使用的证据帧的可解释视图。
-
FCMBench-Video 基准测试评估人工智能模型在视频中的文档理解能力
研究人员推出 FCMBench-Video,这是一个新的基准测试,旨在评估视频多模态大语言模型(Video-MLLMs)在理解视频格式文档方面的能力。该基准测试解决了视频数据的独特挑战,例如时间冗余和跨帧证据整合的需要,这对于金融信贷审查和欺诈检测等应用至关重要。FCMBench-Video 包含一个包含 1,200 个长视频的大型数据集,涵盖各种文档类型和语言,并包含 11,322 个专家标注的问答对,已证明其能够区分当前 Vide…