PulseAugur
实时 09:27:37
English(EN) EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

EnvFactory 通过合成环境自动化 LLM 工具使用训练

研究人员开发了 EnvFactory,这是一个旨在通过代理强化学习增强大型语言模型工具使用能力的自动化框架。该系统合成可执行工具环境,并从真实资源生成逼真的多轮训练轨迹。通过采用拓扑感知采样和精炼,EnvFactory 生成具有隐式意图的接地查询,克服了先前依赖昂贵 API 或简单合成数据的方法的局限性。该框架已显示出显著的性能提升,在 BFCLv3 等基准测试中将 Qwen3 系列模型提升了高达 15%,并增强了对话能力。 AI

影响 通过提供一种可扩展的训练数据和环境生成方法,增强了 LLM 代理强化学习,有可能提高在复杂任务上的性能。

排序理由 发布了一篇详细介绍 LLM 训练新框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

EnvFactory 通过合成环境自动化 LLM 工具使用训练

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Zhijiang Guo ·

    EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

    Equipping LLMs with tool-use capabilities via Agentic Reinforcement Learning (Agentic RL) is bottlenecked by two challenges: the lack of scalable, robust execution environments and the scarcity of realistic training data that captures implicit human reasoning. Existing approaches…