Video LLMs · PulseAugur

TimeThink框架增强视频大语言模型的时间推理能力 · arXiv论文

研究人员推出TimeThink，一个新颖的强化学习框架，旨在增强视频大语言模型（Video-LLMs）的时间推理能力。该方法通过将时间线索步骤视为核心优化原语，专注于优化长视频序列中相关时间证据的发现。TimeThink利用分步时间过程奖励进行局部信用分配，并结合过程-结果优化目标来提高推理准确性和任务正确性。该框架得到了TimeThink-RFT-20K数据集的支持，该数据集包含自动提取的时间证据片段，并在各种视频理解基准测试中展示…

RESEARCH · CL_111633 · Jun 25 · 17:59

去噪注意力（DnA）提升视觉任务性能

研究人员推出了一种名为去噪注意力（DnA）的新方法，旨在提高基于注意力模型的视觉任务性能。DnA通过使用正负查询分别识别相关和不相关的图像特征，解决了标准softmax激活产生的噪声注意力模式问题。该方法将交互投影到不同的子空间，增强了特征的可辨别性。当应用于Vision Transformer Base (ViT-B)骨干网络时，DnA在ImageNet-1K上实现了0.8%的绝对增益，并在视频理解任务（包括视频Transforme…

RESEARCH · CL_79694 · Jun 8 · 09:21

新基准和框架提升视频时序定位能力

研究人员为改进长视频中的时序定位引入了新的基准和框架。一项研究认为，小时级视频定位主要是一个搜索问题，而非识别问题，并发布了ExtremeWhenBench基准来支持这一观点。另一种方法TaRO通过时间感知和新颖的奖励系统来优化其推理过程，从而增强多模态大语言模型。第三种方法CACR利用候选选择和因果推理，在教学视频时序定位任务上取得了最先进的性能。

TOOL · CL_77289 · Jun 8 · 04:00

新的MACD方法可解决视频大语言模型幻觉问题

研究人员开发了一种名为模型感知对比解码（MACD）的新推理策略，以解决视频语言模型中的幻觉问题。MACD利用模型自身的反馈来识别和定位导致生成无根据内容的特定对象区域。通过创建针对这些问题区域的反事实输入，MACD在解码过程中强制执行基于证据的标记选择，从而减少幻觉并提高在各种基准测试上的准确性。

TOOL · CL_66155 · Jun 2 · 04:00

新框架使用属性分析来衡量视频-LLM的复杂度

研究人员推出了一种名为VideoABC的新框架，旨在衡量视频-LLM的视频-问题对的复杂度。这种非参数度量利用视频属性词汇表，例如场景复杂度和事件速度，来估计视频-LLM在给定输入上失败的概率。VideoABC结合了k-means和通用格量化器，以确保即使在参考数据有限的情况下也能进行准确的估计和泛化。实验表明，该方法在性能上优于其他方法，同时提供了对基准复杂度可解释的见解。

TOOL · CL_65487 · Jun 2 · 04:00

V-LynX框架将新模态集成到视频大语言模型中

研究人员开发了V-LynX，一个通过利用现有令牌接口将新模态集成到视频大语言模型（LLMs）中的框架。该方法使用一个轻量级的辅助路径和非配对数据，将新的感官输入与视频先验知识对齐，避免了对大量特定模态编码器或配对监督的需求。V-LynX在各种视频理解任务中展示了最先进的性能和效率，包括视听问答和多视图视频理解。

TOOL · CL_51673 · May 26 · 04:00

LiteFrame 提升视频大语言模型帧扩展能力并降低延迟

研究人员开发了 LiteFrame，这是一种高效的视觉编码器，旨在提高视频大语言模型（Video LLMs）在处理扩展视频内容时的性能。该新框架使用压缩令牌蒸馏来训练一个紧凑的编码器，该编码器模仿大型模型的输出，从而降低了计算开销。与现有的 InternVL3-8B 等模型相比，LiteFrame 在处理八倍帧数的同时将延迟降低了 35%，并提高了视频理解基准的准确性。

TOOL · CL_45039 · May 22 · 04:00

新的CRPO方法增强了视频大语言模型的时空敏感性

研究人员开发了一种名为反事实关系策略优化（CRPO）的新框架，以提高视频大语言模型（Video LLMs）的时空敏感性。该方法解决了Video LLMs依赖捷径而非准确跟踪视频动态的问题。CRPO采用双分支强化学习方法，并引入了新颖的反事实关系奖励（CRR），鼓励模型在视觉上下文改变时改变答案，从而防止依赖静态线索。

RESEARCH · CL_44056 · May 21 · 17:59

研究发现视频大语言模型存在运动方向感知障碍

研究人员发现当前视频大语言模型（Video-LLMs）存在一个显著的局限性，称为“运动方向感知障碍”，即模型难以准确感知和表述物体运动的方向。尽管运动方向信息存在于模型的内部状态中，但一个“方向绑定缺口”阻止了其与语言输出的正确关联。为解决此问题，研究人员开发了MoDirect数据集用于微调和评估，以及一种新颖的目标函数DeltaDirect，该函数在合成基准测试中将运动方向准确率从接近随机水平提高到85%以上，在真实世界数据上提高了…

RESEARCH · CL_47629 · May 18 · 00:00

新框架和基准推动视频大模型效率和理解能力发展

研究人员推出了一种名为EarlyTom的新框架，旨在通过在视觉编码器早期压缩视觉令牌来提高视频大语言模型（Video-LLMs）的效率。该方法在不牺牲准确性的前提下，显著降低了首个令牌生成时间（TTFT）和计算成本。同时，OmniPro和VideoOdyssey等新基准正在开发中，用于评估全模态模型在理解流式和长上下文视频数据方面的先进能力，以解决现有评估方法的局限性。

TOOL · CL_25592 · May 8 · 10:40

研究发现 Video-LLM 在时间信息流方面存在困难

研究人员发现，视频大型语言模型（Video-LLMs）在处理时间信息方面存在一个重大的瓶颈，这阻碍了它们理解视频播放方向的能力。虽然以视频为中心的编码器可以有效地捕捉时间信号，但标准的 Video-LLM 架构通常无法可靠地传递这些信息。研究强调，投影层是一个关键组成部分，某些设计会破坏时间数据，而保留时间的 MLP 投影可以改善信息流。通过优化编码器、投影器并纳入特定的监督，一个新的 Video-LLM 在时间推理任务上达到了接近人类的准确率。

RESEARCH · CL_20298 · May 6 · 13:01

VTAgent通过锚定关键帧改进视频文本问答，树立新标杆

研究人员推出VTAgent，一个旨在改进视频文本视觉问答（Video TextVQA）的新型框架。该系统通过专注于在视频帧内定位相关证据的关键任务，解决了当前Video-LLM的局限性。VTAgent在回答问题前使用一个由问题引导的代理来锚定关键帧，展示了显著的性能提升，包括在额外微调后平均准确率提高超过12%。

RESEARCH · CL_20327 · May 6 · 05:48

新研究通过对抗性课程将视频大模型 grounding 到物理现实

一篇新的研究论文提出了统一归因理论，认为视频大模型在物理推理方面的困难源于“语义先验主导”，而非感知问题。为解决此问题，该论文提出了程序化对抗性课程（PACC）数据集和视觉锚定推理链（VARC）方法。实验表明，使用 PACC 进行微调，可以在不改变架构的情况下显著提高最先进模型的物理推理能力。

RESEARCH · CL_11776 · May 1 · 04:00

研究人员使用新的VISE评估工具对视频大语言模型中的奉承行为进行基准测试

研究人员推出了VISE，这是首个旨在评估视频大语言模型（Video-LLMs）中奉承行为的基准测试。奉承是指模型尽管与视觉证据相矛盾，但仍与用户输入保持一致，这对其可信度构成了风险。VISE旨在通过各种问题类型和推理任务进行系统评估，并将语言学上对奉承的观点纳入视频领域。该论文还提出了两种无需训练的缓解策略：增强视觉基础和在推理时干预内部表征。

RESEARCH · CL_06546 · Apr 28 · 04:00

EMCompress 推出新颖的视频大模型压缩方法，提升效率

研究人员推出 EMCompress，一种提高视频大模型在长视频推理任务中效率的新颖方法。该方法使用一种受认知启发的内omorphic多模态压缩（EMC）技术来压缩视频和查询输入，同时保留准确问答所需的重要信息。通过作为模块化前端，EMCompress 可以集成到现有的视频指令调优和视频问答流程中，在训练和推理效率方面均显示出显著的提升。