研究人员开发了 OmniMem,一个旨在提高音视频大语言模型处理长视频时内存效率的新框架。OmniMem 通过采用一种区分视觉和音频上下文的模态感知分配策略,解决了视频 token 和 KV 缓存线性增长的挑战。它还使用扰动感知选择来保留关键信息,防止内存压缩损害理解。实验表明,在相似的内存限制下,OmniMem 比现有方法提高了 2-4% 的准确率,通过预算感知微调还可以获得进一步的提升。 AI
影响 提高了音视频大语言模型的效率,可能支持更复杂的长视频分析和理解。
排序理由 这是一篇详细介绍大语言模型新技术方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →