English(EN) SMART: Shot-Aware Multimodal Video Moment Retrieval with Audio-Enhanced MLLM

新的SMART框架通过音频和镜头感知压缩增强视频片段检索

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了SMART，一种用于视频片段检索的新框架，通过整合音频线索和视觉信息来增强多模态理解。该方法利用了多模态大语言模型（MLLM），并采用了一种新颖的“镜头感知令牌压缩”技术，以选择性地保留每个视频镜头中的重要信息，从而保留细粒度的时间细节。在Charades-STA和QVHighlights等标准基准上的评估证明了SMART的有效性，显示出相比现有最先进方法的显著改进。 AI

影响提高了视频理解能力，可能增强视频搜索和内容分析等应用。

排序理由该集群包含一篇详细介绍新方法和基准结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · An Yu, Weiheng Lu, Jian Li, Zhenfei Zhang, Yunhang Shen, Felix X. -F. Ye, Ming-Ching Chang · 2026-06-09 04:00

SMART：具有音频增强的多模态MLLM的镜头感知多模态视频时刻检索

arXiv:2511.14143v2 Announce Type: replace-cross Abstract: Video Moment Retrieval is a task in video understanding that aims to localize a specific temporal segment in an untrimmed video based on a natural language query. Despite recent progress in moment retrieval from videos usi…

报道来源 [1]

SMART：具有音频增强的多模态MLLM的镜头感知多模态视频时刻检索

相关实体

相关话题