新流程通过优化帧选择来增强长视频问答能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-03 04:00

研究人员开发了 ReQuest，这是一个新颖的流程，旨在改进长视频在固定输入令牌预算限制下的问答能力。该方法采用了一个问题感知选择器和一个重新思考的路由机制，该机制仅在模型表现出不确定性时触发额外的推理。ReQuest 还结合了不确定性引导的自适应非极大值抑制，以根据问题难度选择时间上多样化的帧，从而在不改变底层多模态大语言模型的情况下提高准确性。 AI

影响该方法可能导致更高效、更准确的分析和查询长视频内容的AI系统。

排序理由该集群包含一篇详细介绍视频问答新方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Minkuk Kim, Suyong Yun, Young Tae Kim, Jinyoung Moon, Jinwoo Choi, Seong Tae Kim · 2026-07-03 04:00

ReQuest: Rethinking-based Question-Aware Frame Selection for Long-Form Video QA

arXiv:2607.01737v1 Announce Type: new Abstract: Recent multimodal large language models (MLLMs) have substantially advanced video understanding, yet long-form video QA remains challenging under fixed input token budgets, where uniform sampling can be inefficient for evidence loca…

报道来源 [1]

ReQuest: Rethinking-based Question-Aware Frame Selection for Long-Form Video QA

相关实体

相关话题