研究人员开发了一种通过挖掘交互轨迹来自动生成计算机使用代理SKILL.md文件的方法。该方法包含三个阶段:分割GUI轨迹、将轨迹聚类为候选技能,以及训练一个感知技能的策略。虽然挖掘出的技能簇在基准测试中针对现有标签显示出高纯度,但它们并未在GRPO和BrowseComp+等指标上显著提高下游策略的性能。研究得出结论,尽管揭示了可检查的技能结构,但目前的技能检测和表示方法不足以可靠地改进跨领域策略。 AI
影响 这项研究强调了将挖掘出的代理技能转化为改进的下游策略性能所面临的挑战,指出了代理训练未来发展领域。
排序理由 该集群包含一篇研究论文,详细介绍了一种为AI代理自动生成技能的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- BrowseComp+
- CatalyzeX
- DagsHub
- Gotit.pub
- GRPO
- Hugging Face
- InteraSkill
- ScienceCast
- SKILL.md
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →