Regimes系统通过可审计的改进循环提高了AI代理的可靠性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-10 04:00

研究人员开发了一个名为Regimes的新系统，增强了自主AI改进循环的可靠性。该系统使用事件溯源的代理运行时来记录所有更改，从而实现可审计的诊断和故障回放。Regimes在LongMemEval基准测试中展示了其能力，发现了可改进准确率高达0.10的提示修复，并在未见过的评估中得到了验证。 AI

影响引入了一个可审计的AI改进框架，可能增加对自主系统的信任和采用。

排序理由该集群包含一篇详细介绍新研究方法和基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yohei Nakajima · 2026-06-10 04:00

Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

arXiv:2606.10241v1 Announce Type: new Abstract: Autonomous improvement loops are hard to trust because the improvement process is usually external scaffolding bolted onto the agent: failures go unlogged, diagnoses cannot be replayed, and promote-or-discard decisions land in a sid…