Bastra Recall(一个用于Claude的MIT许可的内存服务器)的开发者在意识到其98.3%的初步召回率是一个同义反复后,修订了他们的基准测试方法。这个新基准测试使用六个不同的角色代理来为30个记忆生成释义查询,模拟用户随着时间推移描述不同情况的真实使用场景。修订后的测试显示,虽然仅词汇搜索在释义查询上的召回率为63.1%,但本地嵌入将性能显著提高到79.6%,特别是对于语言或经验水平存在差异的查询。开发者还发现,触发短语和写入时释义等功能在这些具有挑战性的查询上没有可衡量的提升,这表明剩余的差距在于排名而非检索。 AI
影响 强调了为AI记忆系统建立稳健、真实世界基准测试的重要性,尤其是在处理释义或多样化的用户输入时。
排序理由 开源AI内存工具的开发者修订的基准测试。[lever_c_从研究中降级:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →