English(EN) VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness

VLN-Cache通过动态令牌缓存提高视觉语言导航模型的速度

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

研究人员开发了VLN-Cache，一个旨在提高视觉和语言导航（VLN）模型效率的新框架。该方法通过重用稳定的视觉令牌，解决了实时应用中冗余计算的挑战。VLN-Cache 结合了视图对齐重映射来处理相机视角的改变，以及任务相关性过滤器来管理导航过程中语义焦点的转移。在 R2R-CE 基准测试上的实验表明，在保持导航成功率的同时，速度提升高达 1.52 倍。 AI

影响 VLN-Cache通过优化令牌重用，为更快、更高效的实时导航系统提供了潜在途径。

排序理由这是一篇介绍用于提高VLN模型效率的新框架的研究论文。

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Zihao Zheng, Zhihao Mao, Xingyue Zhou, Jiayu Chen, Maoliang Li, Xinhao Sun, Hailong Zou, Zhaobo Zhang, Xuanzhe Liu, Donggang Cao, Hong Mei, Xiang Chen · 2026-04-30 04:00

VLN-Cache：实现具有视觉/语义动态感知的VLN模型令牌缓存

arXiv:2603.07080v3 Announce Type: replace-cross Abstract: Vision-and-Language Navigation (VLN) increasingly relies on large vision-language models, but their inference cost conflicts with real-time deployment. Token caching is a promising training-free strategy that avoids redund…

报道来源 [1]

VLN-Cache：实现具有视觉/语义动态感知的VLN模型令牌缓存

相关话题