研究人员开发了一个名为 Streaming Harness 的新框架,使视觉语言模型 (VLMs) 能够实时处理无界视频流。该系统通过主动交互、长达 12 小时的长期记忆保留以及亚秒级处理延迟来增强 VLMs。为了支持这一进展,他们还引入了一个新的流式数据集 Streaming-Train-248K 和一个基准 Streaming-Eval,以推动可部署的流式智能的进一步发展。 AI
影响 能够对实时视频源进行实时分析,用于助手和机器人等应用,超越离线视频理解。
排序理由 该集群包含一篇学术论文,详细介绍了用于处理流式视频和 VLMs 的新系统、数据集和基准。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →