研究人员推出了 EngramaBench,这是一个旨在评估大型语言模型长期对话记忆能力的新基准。该基准包含五个不同的角色和一百次多轮对话,查询内容测试事实回忆、时间推理和综合能力。在评估中,具有全上下文提示的 GPT-4o 取得了最高的总体分数,尽管一个名为 Engrama 的图结构记忆系统在跨空间推理方面表现更优。 AI
影响 引入了一个新的基准来评估 LLM 的长期记忆,可能指导未来的记忆系统开发。
排序理由 这是一篇介绍用于评估 LLM 记忆的新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →