English(EN) SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

新基准测试大型语言模型代理从经验中形成技能的能力

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-22 00:00

一项名为 SkillEvolBench 的新基准被引入，用于评估大型语言模型 (LLM) 代理将情景经验提炼成可重用程序性技能的能力。该基准包含六个环境中的 180 个任务，旨在测试在各种条件下的技能形成和重用。目前的 LLM 代理在形成健壮、可重用的技能方面表现出局限性，通常在原始轨迹重用方面表现优于提炼后的技能，这表明当前的抽象方法可能会丢弃有用的上下文信息。 AI

影响该基准旨在提升 LLM 代理学习和重用技能的能力，可能带来更强大、更高效的 AI 系统。

排序理由该集群描述了一个用于评估 LLM 代理能力的新学术基准，已在 arXiv 上发布。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Yingtie Lei, Zhongwei Wan, Jiankun Zhang, Samiul Alam, Zixuan Zhong, Peizhou Huang, Xin Wang, Jingxuan Zhang, Donghao Zhou, Yunta Hsieh, Zhihao Dou, Hui Shen, Yan Xu, Dimitrios Dimitriadis, Tuo Zhang, Mi Zhang · 2026-05-26 04:00

SkillEvolBench：从情景经验到程序性技能的演变基准测试

arXiv:2605.24117v1 Announce Type: new Abstract: Large language model (LLM) agents accumulate rich episodic trajectories while solving real-world tasks, but it remains unclear whether such experience can be distilled into reusable procedural skills. We introduce SkillEvolBench, a …
Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-22 00:00

SkillEvolBench：从情景经验到程序性技能的演化基准测试

Current large language model agents struggle to form robust reusable skills from episodic experience, with raw trajectory reuse often outperforming distilled skills due to discarded contextual cues.

报道来源 [2]

SkillEvolBench：从情景经验到程序性技能的演变基准测试

SkillEvolBench：从情景经验到程序性技能的演化基准测试

相关实体

相关话题