LMEB基准评估超越传统段落检索的长时记忆检索能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-08 04:00

研究人员推出了长时记忆嵌入基准（LMEB），这是一个新的评估框架，旨在评估嵌入模型在处理复杂、长时记忆检索任务方面的能力。与专注于传统段落检索的现有基准不同，LMEB包含22个数据集和193个零样本任务，涵盖了四种不同的记忆类型：情景记忆、对话记忆、语义记忆和程序记忆。对15个模型的初步评估表明，LMEB提出了一个合适的挑战，模型规模越大并不保证性能越好，并且LMEB衡量了与MTEB基准不同的能力。 AI

影响引入了一个新的基准，可能会推动开发更适合长期、依赖上下文的记忆检索的模型。

排序理由该集群描述了一篇介绍用于评估AI模型基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Xinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang · 2026-05-08 04:00

LMEB: Long-horizon Memory Embedding Benchmark

arXiv:2603.12572v3 Announce Type: replace Abstract: Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess m…

报道来源 [1]

LMEB: Long-horizon Memory Embedding Benchmark

相关实体

相关话题