PulseAugur
实时 12:21:28
English(EN) My AI memory benchmark said 98.3%. The number was true — and worthless.

AI记忆基准在初步指标被发现误导后进行修订

Bastra Recall(一个用于Claude的MIT许可的内存服务器)的开发者在意识到其98.3%的初步召回率是一个同义反复后,修订了他们的基准测试方法。这个新基准测试使用六个不同的角色代理来为30个记忆生成释义查询,模拟用户随着时间推移描述不同情况的真实使用场景。修订后的测试显示,虽然仅词汇搜索在释义查询上的召回率为63.1%,但本地嵌入将性能显著提高到79.6%,特别是对于语言或经验水平存在差异的查询。开发者还发现,触发短语和写入时释义等功能在这些具有挑战性的查询上没有可衡量的提升,这表明剩余的差距在于排名而非检索。 AI

影响 强调了为AI记忆系统建立稳健、真实世界基准测试的重要性,尤其是在处理释义或多样化的用户输入时。

排序理由 开源AI内存工具的开发者修订的基准测试。[lever_c_从研究中降级:ic=1 ai=1.0]

在 dev.to — MCP tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

AI记忆基准在初步指标被发现误导后进行修订

报道来源 [1]

  1. dev.to — MCP tag TIER_1 English(EN) · Daniel Nevoigt ·

    My AI memory benchmark said 98.3%. The number was true — and worthless.

    <p>In my last post I introduced Bastra Recall — an MIT-licensed MCP memory server that gives Claude persistent memory as plain Markdown in a local Obsidian vault. I promised a follow-up on retrieval and benchmarking.<br /> Here it is. It starts with me being wrong.<br /> The 98.3…