研究人员推出了EGOSTREAM,这是一个旨在评估以自我为中心的视觉模型流式情景记忆能力的新基准。该基准包含七个认知维度的2250个问题,并引入了一个答案有效性窗口(AVW)来区分模型遗忘和现实世界变化。使用Qwen3-VL骨干进行的初步实验表明,当前的记忆管理机制在实时性能和高准确性方面存在困难,突显了现有架构的重大差距。 AI
影响 该基准将能够对具有改进的长期记忆能力的AI系统进行更严格的测试和开发。
排序理由 该集群包含一篇介绍用于评估AI模型的新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →