English(EN) EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval

EngramaBench 评估 LLM 的长期对话记忆

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-23 02:51

研究人员推出了 EngramaBench，这是一个旨在评估大型语言模型长期对话记忆能力的新基准。该基准包含五个不同的角色和一百次多轮对话，查询内容测试事实回忆、时间推理和综合能力。在评估中，具有全上下文提示的 GPT-4o 取得了最高的总体分数，尽管一个名为 Engrama 的图结构记忆系统在跨空间推理方面表现更优。 AI

影响引入了一个新的基准来评估 LLM 的长期记忆，可能指导未来的记忆系统开发。

排序理由这是一篇介绍用于评估 LLM 记忆的新基准的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Julian Acuna · 2026-04-23 02:51

EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval

Large language model assistants are increasingly expected to retain and reason over information accumulated across many sessions. We introduce EngramaBench, a benchmark for long-term conversational memory built around five personas, one hundred multi-session conversations, and on…

报道来源 [1]

EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval

相关实体

相关话题