English(EN) SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

SkillAudit 框架在无真实情况反馈下演进 LLM 代理技能

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-12 08:20

研究人员开发了 SkillAudit，一个新颖的框架，旨在无需真实情况反馈即可演进 LLM 的代理技能。该方法利用配对轨迹审计，即在有和没有候选技能的情况下执行任务，以隔离行为变化。然后，过程对齐对比评估 (PACE) 将这些差异转化为技能文档的可操作编辑。SkillAudit 证明了显著的性能提升，在 89 个任务中实现了 73.9% 的平均任务奖励，优于具有和不具有静态专家技能的代理。 AI

影响在缺乏明确真实情况数据的场景中实现 LLM 代理技能的精炼，可能拓宽代理的应用范围。

排序理由该集群包含一篇学术论文，详细介绍了用于 AI 代理技能演进的新研究框架。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Haowen Gao, Haoran Chen, Can Wang, Shasha Guo, Liang Pang, Zhaoyang Liu, Huawei Shen, Xueqi Cheng · 2026-06-15 04:00

SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

arXiv:2606.14239v1 Announce Type: new Abstract: Agent skills are structured procedural packages that guide frozen LLM agents in specialized workflows. Skills rarely remain sufficient after deployment: edge cases, API changes, and deployment constraints become visible only through…
arXiv cs.AI TIER_1 English(EN) · Xueqi Cheng · 2026-06-12 08:20

SkillAudit: 通过配对轨迹审计实现无真实值技能演化

Agent skills are structured procedural packages that guide frozen LLM agents in specialized workflows. Skills rarely remain sufficient after deployment: edge cases, API changes, and deployment constraints become visible only through use, making skill evolution a practical necessi…

报道来源 [2]

SkillAudit: Ground-Truth-Free Skill Evolution via Paired Trajectory Auditing

SkillAudit: 通过配对轨迹审计实现无真实值技能演化

相关话题