研究人员开发了 EnvFactory,这是一个旨在通过代理强化学习增强大型语言模型工具使用能力的自动化框架。该系统合成可执行工具环境,并从真实资源生成逼真的多轮训练轨迹。通过采用拓扑感知采样和精炼,EnvFactory 生成具有隐式意图的接地查询,克服了先前依赖昂贵 API 或简单合成数据的方法的局限性。该框架已显示出显著的性能提升,在 BFCLv3 等基准测试中将 Qwen3 系列模型提升了高达 15%,并增强了对话能力。 AI
影响 通过提供一种可扩展的训练数据和环境生成方法,增强了 LLM 代理强化学习,有可能提高在复杂任务上的性能。
排序理由 发布了一篇详细介绍 LLM 训练新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →