English(EN) OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem 提升大语言模型内存效率，用于长视频分析

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-09 04:00

研究人员开发了 OmniMem，一个旨在提高音视频大语言模型处理长视频时内存效率的新框架。OmniMem 通过采用一种区分视觉和音频上下文的模态感知分配策略，解决了视频 token 和 KV 缓存线性增长的挑战。它还使用扰动感知选择来保留关键信息，防止内存压缩损害理解。实验表明，在相似的内存限制下，OmniMem 比现有方法提高了 2-4% 的准确率，通过预算感知微调还可以获得进一步的提升。 AI

影响提高了音视频大语言模型的效率，可能支持更复杂的长视频分析和理解。

排序理由这是一篇详细介绍大语言模型新技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang · 2026-06-09 04:00

OmniMem：流式音视频大语言模型的扰动感知记忆压缩

arXiv:2606.07577v1 Announce Type: new Abstract: Audio-visual large language models (LLMs) hold strong promise for long-form video understanding, yet their long-video inference is fundamentally limited by the linear growth of video tokens and key-value (KV) caches. We present Omni…

报道来源 [1]

OmniMem：流式音视频大语言模型的扰动感知记忆压缩

相关实体

相关话题