实体 MLVU

MLVU

PulseAugur coverage of MLVU — every cluster mentioning MLVU across labs, papers, and developer communities, ranked by signal.

总计 · 30天

9

90 天内 9

发布 · 30天

0

90 天内 0

论文 · 30天

9

90 天内 9

层级分布 · 90 天

主题

关系

情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 9 条

TOOL · CL_135427 · Jul 10 · 04:00

目标驱动数据优化加速多模态AI训练

研究人员开发了一个名为目标驱动数据优化（GDO）的框架，以提高多模态指令调优的效率。GDO计算样本描述符，以创建针对特定目标的优化训练子集，与Uni-10x等现有方法相比，能够以更少的样本实现更快的收敛和更高的准确性。当应用于Qwen3-VL-8B-Instruct模型时，GDO在MVBench和VideoMME等基准测试中取得了优越的结果，证明了其在减少多模态训练中计算低效率方面的有效性。
TOOL · CL_128730 · Jul 7 · 04:00

新的DELTAVID框架提升视频大语言模型的细粒度感知能力

研究人员推出了一种新颖的DELTAVID框架，旨在提升视频多模态大语言模型（Video MLLMs）的细粒度时空感知能力。该方法将识别相似视频之间差异的任务转化为可训练信号，使模型能够精确识别局部变化、时间边界和空间证据。该框架得到了DELTAVID-10K和DELTAVID-Bench数据集的支持，这些数据集旨在促进这些感知技能的可扩展训练和可靠评估。实验表明，DELTAVID显著提升了跨视频差异理解的性能，并将这种改进的局部证据推…
RESEARCH · CL_123289 · Jul 2 · 05:46

新的ReQuest管道增强了长视频问答的LLM能力

研究人员开发了ReQuest，这是一个旨在提高长视频问答能力的新型管道。该方法通过采用一种由不确定性驱动的、适应性问题选择关键帧的过程，解决了多模态大型语言模型中固定输入令牌预算的限制。ReQuest集成了一个轻量级选择器、一个根据模型不确定性触发额外推理的路由机制，以及一种自适应非最大抑制技术来选择相关且时间上多样化的帧。该系统作为一个即插即用解决方案，在Video-MME、MLVU和LongVideoBench等基准测试上提高了性…
RESEARCH · CL_117441 · Jun 29 · 13:30

VisReflect 框架改进了 LVLM 在长上下文中的细粒度感知能力

研究人员推出了一种名为 VisReflect 的新框架，旨在提高大型视觉语言模型 (LVLM) 在处理高分辨率图像和长视频时的细粒度感知能力。该方法解决了“视觉注意力沉陷现象”的挑战，即不相关的视觉标记会主导模型的注意力。VisReflect 利用潜在视觉反射，在单次前向传播中引导注意力集中于显著区域或帧，避免了对裁剪视觉区域进行重新编码的计算开销。在 BLINK、HRBench-4K/8K、MVBench、VideoMME 和 ML…
RESEARCH · CL_84536 · Jun 10 · 00:00

InternVideo3 增强视频理解能力，引入新推理框架

研究人员推出了 InternVideo3，一个旨在提升长时视频理解和代理能力的新框架。该系统利用多模态上下文推理（MCR）将视频内容处理为不断演变的上下文，从而在延长时间内进行证据累积和验证。为了保持效率，InternVideo3 采用了多模态多头潜在注意力（M^2LA），该机制在不丢失 token 信息的情况下压缩键值缓存状态。该模型在各种视频理解基准测试中表现出色，并已被改编成一个能够进行证据支撑检索任务的视频代理。
TOOL · CL_45087 · May 22 · 04:00

Video-o3框架通过迭代式线索探寻增强长视频推理能力

研究人员开发了Video-o3，一个旨在通过迭代式发现相关视觉线索和细粒度检查关键片段来提高长视频理解能力的新框架。该系统通过使用任务解耦注意力掩码（Task-Decoupled Attention Masking）来分离推理和工具调用，同时保留全局上下文，从而解决了多模态模型在工具调用方面面临的挑战。为了管理上下文长度并提高效率，它采用了可验证轨迹引导奖励（Verifiable Trajectory-Guided Reward）机制…
TOOL · CL_30555 · May 13 · 09:19

ReTool-Video 通过递归工具使用增强视频代理

研究人员推出了 ReTool-Video，这是一种用于视频理解代理的新颖方法，可增强其推理能力。该方法利用一个包含 134 个专用工具的扩展工具库，包括用于过滤和聚合的元工具，以支持细粒度的组合推理。ReTool-Video 将高级视频意图递归地分解为可执行的工具链，从而实现动态参数修复和工具替换，以实现复杂的多模态操作。实验表明，ReTool-Video 在多个视频理解基准测试中优于现有基线。
RESEARCH · CL_15643 · May 5 · 04:00

新的AI方法通过结构化和选择视觉证据来增强视频推理能力

研究人员正在开发新方法，以改进大型视觉语言模型（VLM）理解和推理长视频的方式。几篇论文介绍了更有效的帧选择和证据收集技术，超越了简单的采样，采用了自适应策略。这些方法旨在通过关注特定查询最相关的视觉信息来降低计算成本并提高准确性。
RESEARCH · CL_06205 · Apr 27 · 05:18

新的QEVA指标提供无参考视频摘要评估

研究人员推出了一种新颖的无参考指标QEVA，用于评估叙事视频摘要。与依赖人工编写摘要的先前方法不同，QEVA通过多模态问答直接将摘要与源视频进行比较来评估摘要。该新指标评估摘要的覆盖度、事实性和时序性，并附带了一个名为MLVU(VS)-Eval的新基准数据集。