PulseAugur
实时 20:55:58
实体 tau2-bench

tau2-bench

PulseAugur coverage of tau2-bench — every cluster mentioning tau2-bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_105067 ·

    新方法通过偏好学习改进多轮AI代理 · 跟踪2个来源

    研究人员开发了一种名为ToolGraph的新方法,该方法通过整合来自成功部署的模式派生拓扑和转换权重来增强多轮工具使用代理。该方法改进了长时序工具序列的协调,并更有效地跟踪对话状态。当与直接偏好优化(DPO)结合使用时,ToolGraph在tau2-bench基准测试的375个任务上,尤其是在航空和零售领域,加权平均奖励显著提高。