PulseAugur
实时 19:16:12
English(EN) Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning

新方法通过偏好学习改进多轮AI代理 · 跟踪2个来源

研究人员开发了一种名为ToolGraph的新方法,该方法通过整合来自成功部署的模式派生拓扑和转换权重来增强多轮工具使用代理。该方法改进了长时序工具序列的协调,并更有效地跟踪对话状态。当与直接偏好优化(DPO)结合使用时,ToolGraph在tau2-bench基准测试的375个任务上,尤其是在航空和零售领域,加权平均奖励显著提高。 AI

影响 这项研究可能带来更强大、更高效的多轮AI代理,从而提高复杂任务执行的性能。

排序理由 该集群描述了一篇详细介绍改进AI代理新方法的最新研究论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新方法通过偏好学习改进多轮AI代理 · 跟踪2个来源

报道来源 [2]

  1. Hugging Face Daily Papers TIER_1 English(EN) ·

    Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning

    Multi-turn tool-using agents must coordinate long-horizon tool sequences while tracking dialogue state and policy constraints. Existing approaches often separate inference-time orchestration from parameter-level learning, leaving tool selection weakly structured and preference up…

  2. arXiv cs.AI TIER_1 English(EN) · Jiaqiang Tang ·

    Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning

    Multi-turn tool-using agents must coordinate long-horizon tool sequences while tracking dialogue state and policy constraints. Existing approaches often separate inference-time orchestration from parameter-level learning, leaving tool selection weakly structured and preference up…