PulseAugur
实时 13:44:03

Regimes系统通过可审计的改进循环提高了AI代理的可靠性

研究人员开发了一个名为Regimes的新系统,增强了自主AI改进循环的可靠性。该系统使用事件溯源的代理运行时来记录所有更改,从而实现可审计的诊断和故障回放。Regimes在LongMemEval基准测试中展示了其能力,发现了可改进准确率高达0.10的提示修复,并在未见过的评估中得到了验证。 AI

影响 引入了一个可审计的AI改进框架,可能增加对自主系统的信任和采用。

排序理由 该集群包含一篇详细介绍新研究方法和基准测试结果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yohei Nakajima ·

    Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

    arXiv:2606.10241v1 Announce Type: new Abstract: Autonomous improvement loops are hard to trust because the improvement process is usually external scaffolding bolted onto the agent: failures go unlogged, diagnoses cannot be replayed, and promote-or-discard decisions land in a sid…