English(EN) HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

HiMu框架通过分层帧选择增强长视频问答能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-29 04:00

研究人员开发了HiMu，一个旨在改进长视频问答任务帧选择的新型框架。该无训练系统将复杂查询分解为分层逻辑树，利用专门的视觉和音频处理专家。HiMu的方法使用模糊逻辑对专家信号进行归一化和组合，以保持时间顺序和模态绑定，在Video-MME和LongVideoBench等基准测试中表现优于先前的方法。 AI

影响 HiMu的方法可以显著提高处理长视频内容的AI模型的效率和准确性，从而实现对视频数据更复杂的分析和交互。

排序理由这是一篇详细介绍多模态AI新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Dan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin · 2026-06-29 04:00

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

arXiv:2603.18558v2 Announce Type: replace-cross Abstract: Long-form video question answering requires reasoning over extended temporal contexts, making frame selection a critical bottleneck for multi-modal large language models (MLLMs) bound by finite context windows. Within the …

报道来源 [1]

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering

相关实体

相关话题