研究人员开发了一个名为Regimes的新系统,增强了自主AI改进循环的可靠性。该系统使用事件溯源的代理运行时来记录所有更改,从而实现可审计的诊断和故障回放。Regimes在LongMemEval基准测试中展示了其能力,发现了可改进准确率高达0.10的提示修复,并在未见过的评估中得到了验证。 AI
影响 引入了一个可审计的AI改进框架,可能增加对自主系统的信任和采用。
排序理由 该集群包含一篇详细介绍新研究方法和基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →