实体 MVBench

MVBench

PulseAugur coverage of MVBench — every cluster mentioning MVBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

6

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

6

90 天内 6

层级分布 · 90 天

主题

关系

used by VideoMME 70%

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_135427 · Jul 10 · 04:00

目标驱动数据优化加速多模态AI训练

研究人员开发了一个名为目标驱动数据优化（GDO）的框架，以提高多模态指令调优的效率。GDO计算样本描述符，以创建针对特定目标的优化训练子集，与Uni-10x等现有方法相比，能够以更少的样本实现更快的收敛和更高的准确性。当应用于Qwen3-VL-8B-Instruct模型时，GDO在MVBench和VideoMME等基准测试中取得了优越的结果，证明了其在减少多模态训练中计算低效率方面的有效性。
RESEARCH · CL_117441 · Jun 29 · 13:30

VisReflect 框架改进了 LVLM 在长上下文中的细粒度感知能力

研究人员推出了一种名为 VisReflect 的新框架，旨在提高大型视觉语言模型 (LVLM) 在处理高分辨率图像和长视频时的细粒度感知能力。该方法解决了“视觉注意力沉陷现象”的挑战，即不相关的视觉标记会主导模型的注意力。VisReflect 利用潜在视觉反射，在单次前向传播中引导注意力集中于显著区域或帧，避免了对裁剪视觉区域进行重新编码的计算开销。在 BLINK、HRBench-4K/8K、MVBench、VideoMME 和 ML…
TOOL · CL_30555 · May 13 · 09:19

ReTool-Video 通过递归工具使用增强视频代理

研究人员推出了 ReTool-Video，这是一种用于视频理解代理的新颖方法，可增强其推理能力。该方法利用一个包含 134 个专用工具的扩展工具库，包括用于过滤和聚合的元工具，以支持细粒度的组合推理。ReTool-Video 将高级视频意图递归地分解为可执行的工具链，从而实现动态参数修复和工具替换，以实现复杂的多模态操作。实验表明，ReTool-Video 在多个视频理解基准测试中优于现有基线。
TOOL · CL_15615 · May 5 · 04:00

VideoThinker框架通过因果去偏提升轻量级MLLM的视频推理能力

研究人员开发了VideoThinker，一个旨在增强轻量级多模态语言模型（MLLM）在视频分析中推理能力的新型框架。该方法解决了感知偏差问题，即模型倾向于依赖肤浅的数据模式而非真正的理解。VideoThinker采用两阶段去偏过程，首先创建一个“偏差模型”来捕捉捷径行为，然后使用因果去偏策略优化（CDPO）算法引导主模型进行准确推理。
RESEARCH · CL_10110 · Apr 30 · 04:00

ReGATE方法通过选择性修剪Token来加速多模态LLM训练

研究人员开发了ReGATE，一种通过自适应修剪Token来加速多模态大型语言模型（MLLM）训练的新颖方法。该技术使用一种教师-学生框架，其中一个固定的教师模型指导学生在训练过程中识别和丢弃冗余Token。ReGATE已证明，在MVBench等基准测试中，其速度最高可达标准方法的两倍，同时显著减少了处理的Token数量，并能达到峰值准确率。
RESEARCH · CL_06464 · Apr 28 · 04:00

新的PushupBench基准测试揭示VLM在计算重复次数方面存在困难

研究人员推出了PushupBench，这是一个旨在评估视觉语言模型（VLM）在视频中准确计算重复次数能力的新数据集。该基准测试表明，即使是顶级VLM在此任务上也表现不佳，在计算俯卧撑次数方面仅达到42.1%的精确准确率。此外，研究还发现，一些模型可能利用统计偏差而非进行真正的时序推理。有趣的是，在该计数任务上对模型进行微调可以提高它们在更广泛的视频理解基准测试上的表现。