PulseAugur
实时 10:18:48
English(EN) SMART: Shot-Aware Multimodal Video Moment Retrieval with Audio-Enhanced MLLM

新的SMART框架通过音频和镜头感知压缩增强视频片段检索

研究人员开发了SMART,一种用于视频片段检索的新框架,通过整合音频线索和视觉信息来增强多模态理解。该方法利用了多模态大语言模型(MLLM),并采用了一种新颖的“镜头感知令牌压缩”技术,以选择性地保留每个视频镜头中的重要信息,从而保留细粒度的时间细节。在Charades-STA和QVHighlights等标准基准上的评估证明了SMART的有效性,显示出相比现有最先进方法的显著改进。 AI

影响 提高了视频理解能力,可能增强视频搜索和内容分析等应用。

排序理由 该集群包含一篇详细介绍新方法和基准结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · An Yu, Weiheng Lu, Jian Li, Zhenfei Zhang, Yunhang Shen, Felix X. -F. Ye, Ming-Ching Chang ·

    SMART:具有音频增强的多模态MLLM的镜头感知多模态视频时刻检索

    arXiv:2511.14143v2 Announce Type: replace-cross Abstract: Video Moment Retrieval is a task in video understanding that aims to localize a specific temporal segment in an untrimmed video based on a natural language query. Despite recent progress in moment retrieval from videos usi…