实体 Video Large Language Models

Video Large Language Models

PulseAugur coverage of Video Large Language Models — every cluster mentioning Video Large Language Models across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 5

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

3 天有情绪数据

最近 · 第 1/1 页 · 共 5 条

RESEARCH · CL_141275 · Jul 13 · 09:26

新的SLVMBench基准测试揭示视频大语言模型在从长记忆中学习技能方面存在困难

研究人员推出了SLVMBench，这是一个新颖的基准测试，旨在评估视频大语言模型（video-LLMs）从扩展视频记忆中学习技能并在实时场景中应用它们的能力。该基准测试通过在数小时的不相关内容中嵌入教程视频来模拟人类学习，测试模型记忆、提取程序性知识并将其转移到正在进行的任务中的能力。初步评估表明，当前的视频大语言模型在这一过程中存在显著困难，特别是当所需知识嵌入在长视频上下文中时，这凸显了它们在技能获取和应用能力方面的一个关键限制。
RESEARCH · CL_139317 · Jul 10 · 03:58

GeoTrace框架压缩视频令牌，以提高视频大语言模型的效率

研究人员推出GeoTrace，一个新颖的框架，旨在通过压缩视频令牌来提高视频大语言模型（Video LLMs）的效率。这种无需训练的方法使用上下文最远点锚定和轨迹约束残差凝结，将视频证据分解为骨架和残差事件令牌。GeoTrace已在各种Video LLMs和基准测试中证明了其有效性，在保持高性能的同时显著降低了计算负载。
RESEARCH · CL_107733 · Jun 23 · 14:03

新基准推动视频AI将答案与时间证据联系起来 · 跟踪4个来源

两篇新的研究论文介绍了视频问答的基准和模型，这些模型侧重于时间推理和证据关联。EG-VQA基准拥有超过11,000个问答对和时间证据注释，突显出当前模型在准确本地化证据方面存在困难，即使答案是正确的。为了解决这个问题，开发了EG-Reasoner模型，在推理密集型任务上表现有所提高。另外，ViTexQA数据集和FrameThinker模型解决了视频文本理解问题，其中语义是从时间分布的线索中产生的，通过提高ROUGE-L分数，其表现优于…
RESEARCH · CL_53581 · May 26 · 14:41

VideoLLMs 表现出“事件包”行为，臆想时间联系

一篇新发表在 arXiv 上的研究介绍了 DistractionBench，一个旨在测试视频大语言模型 (VideoLLMs) 时间理解能力的框架。研究人员发现，这些模型经常表现出“事件包”行为，这意味着它们将视频视为一系列不相关的事件集合，而不是一个连贯、有时间结构序列。这会导致显著的臆想，模型会错误地将插入片段（如广告）中的动作归因于主视频内容中的主体。该研究评估了 11 个流行的 VideoLLMs，所有模型都显示出这一缺陷，突…
TOOL · CL_45034 · May 22 · 04:00

EvoVid框架使视频大语言模型能够利用原始视频数据进行自进化

研究人员推出了一种名为EvoVid的新型框架，旨在通过时间中心自进化来增强视频大语言模型（Video-LLMs）。与以往仅限于静态数据的自进化方法不同，EvoVid通过关注时间动态，使Video-LLMs能够直接从原始、未标注的视频中学习。该框架结合了用于问题生成和视频片段定位的专门奖励，从而在多个基准测试和基础模型上实现了持续的性能提升。

新的SLVMBench基准测试揭示视频大语言模型在从长记忆中学习技能方面存在困难

GeoTrace框架压缩视频令牌，以提高视频大语言模型的效率

新基准推动视频AI将答案与时间证据联系起来 · 跟踪4个来源

VideoLLMs 表现出“事件包”行为，臆想时间联系

EvoVid框架使视频大语言模型能够利用原始视频数据进行自进化