PulseAugur
实时 12:26:51
English(EN) OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem 提升大语言模型内存效率,用于长视频分析

研究人员开发了 OmniMem,一个旨在提高音视频大语言模型处理长视频时内存效率的新框架。OmniMem 通过采用一种区分视觉和音频上下文的模态感知分配策略,解决了视频 token 和 KV 缓存线性增长的挑战。它还使用扰动感知选择来保留关键信息,防止内存压缩损害理解。实验表明,在相似的内存限制下,OmniMem 比现有方法提高了 2-4% 的准确率,通过预算感知微调还可以获得进一步的提升。 AI

影响 提高了音视频大语言模型的效率,可能支持更复杂的长视频分析和理解。

排序理由 这是一篇详细介绍大语言模型新技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang ·

    OmniMem:流式音视频大语言模型的扰动感知记忆压缩

    arXiv:2606.07577v1 Announce Type: new Abstract: Audio-visual large language models (LLMs) hold strong promise for long-form video understanding, yet their long-video inference is fundamentally limited by the linear growth of video tokens and key-value (KV) caches. We present Omni…