English(EN) LFS: Learnable Frame Selector for Event-Aware and Temporally Diverse Video Captioning

新的帧选择方法提高了视频字幕的质量和多样性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员开发了一种学习帧选择器（LFS），通过智能选择相关帧来改进视频字幕生成。与均匀采样不同，LFS 平衡了时间多样性和事件相关性，并利用大型语言模型的反馈来优化字幕质量。该方法在现有基准和新数据集 ICH-CC 上均有所改进，并增强了视频问答性能。 AI

影响该方法有望带来更准确、更细致的视频理解系统，从而改进视频问答等下游应用。

排序理由这是一篇详细介绍视频字幕新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Lianying Chao, Linfeng Yin, Peiyu Ren, Yifan Jiang, Qiaoyu Ren, Dingcheng Shan, Jing-cheng Pang, Sijie Wu, Xubin Li, Kai Zhang, Xin Chen · 2026-05-08 04:00

LFS：用于事件感知和时间多样化视频字幕的可学习帧选择器

arXiv:2601.14594v2 Announce Type: replace Abstract: Video captioning models convert frames into visual tokens and generate descriptions with large language models (LLMs). Since encoding all frames is prohibitively expensive, uniform sampling is the default choice, but it enforces…