PulseAugur
实时 20:19:04
English(EN) EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval

EngramaBench 评估 LLM 的长期对话记忆

研究人员推出了 EngramaBench,这是一个旨在评估大型语言模型长期对话记忆能力的新基准。该基准包含五个不同的角色和一百次多轮对话,查询内容测试事实回忆、时间推理和综合能力。在评估中,具有全上下文提示的 GPT-4o 取得了最高的总体分数,尽管一个名为 Engrama 的图结构记忆系统在跨空间推理方面表现更优。 AI

影响 引入了一个新的基准来评估 LLM 的长期记忆,可能指导未来的记忆系统开发。

排序理由 这是一篇介绍用于评估 LLM 记忆的新基准的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

EngramaBench 评估 LLM 的长期对话记忆

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Julian Acuna ·

    EngramaBench: Evaluating Long-Term Conversational Memory with Structured Graph Retrieval

    Large language model assistants are increasingly expected to retain and reason over information accumulated across many sessions. We introduce EngramaBench, a benchmark for long-term conversational memory built around five personas, one hundred multi-session conversations, and on…