PulseAugur
实时 17:55:37

LMEB基准评估超越传统段落检索的长时记忆检索能力

研究人员推出了长时记忆嵌入基准(LMEB),这是一个新的评估框架,旨在评估嵌入模型在处理复杂、长时记忆检索任务方面的能力。与专注于传统段落检索的现有基准不同,LMEB包含22个数据集和193个零样本任务,涵盖了四种不同的记忆类型:情景记忆、对话记忆、语义记忆和程序记忆。对15个模型的初步评估表明,LMEB提出了一个合适的挑战,模型规模越大并不保证性能越好,并且LMEB衡量了与MTEB基准不同的能力。 AI

影响 引入了一个新的基准,可能会推动开发更适合长期、依赖上下文的记忆检索的模型。

排序理由 该集群描述了一篇介绍用于评估AI模型基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LMEB基准评估超越传统段落检索的长时记忆检索能力

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Xinping Zhao, Xinshuo Hu, Jiaxin Xu, Danyu Tang, Xin Zhang, Mengjia Zhou, Yan Zhong, Yao Zhou, Zifei Shan, Meishan Zhang, Baotian Hu, Min Zhang ·

    LMEB: Long-horizon Memory Embedding Benchmark

    arXiv:2603.12572v3 Announce Type: replace Abstract: Memory embeddings are crucial for memory-augmented systems, such as OpenClaw, but their evaluation is underexplored in current text embedding benchmarks, which narrowly focus on traditional passage retrieval and fail to assess m…