研究人员推出了SkillEvolBench,这是一个旨在评估大型语言模型代理将情景经验转化为可复用程序性技能的能力的新基准。该基准包含六个环境中的180个任务,按具有共享底层程序的任务家族进行组织。对各种代理配置进行的初步测试显示,当前代理在形成健壮、可复用技能方面存在困难,通常在原始轨迹复用方面表现优于提炼后的技能,这表明当前的抽象方法可能会丢弃有用的上下文信息。 AI
影响 该基准有望推动LLM代理在泛化知识和形成可复用技能方面取得进展,超越特定任务的记忆。
排序理由 学术论文,介绍用于评估LLM代理能力的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →