PulseAugur
实时 06:38:02
实体 ToolBench

ToolBench

PulseAugur coverage of ToolBench — every cluster mentioning ToolBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条
  1. TOOL · CL_44838 ·

    NaviAgent 通过双层规划改进 LLM 工具编排

    研究人员开发了 NaviAgent,一个旨在改进大型语言模型(LLM)如何编排使用外部工具的新系统。NaviAgent 采用双层架构,将任务规划与工具执行分开,并使用基于图的模型来理解数百甚至数千个工具之间的关系。这种方法旨在通过允许代理独立于工具间的复杂性来规划工具链,从而减少错误并提高可扩展性。在 API-Bank 和 ToolBench 等基准测试上的评估表明,任务成功率显著提高,尤其是在复杂任务方面。

  2. TOOL · CL_15958 ·

    Cocoreli架构强制执行前置条件以实现可靠的指令遵循

    研究人员推出了一种名为 Cocoreli 的新颖架构,旨在提高自主代理执行人类指令的可靠性。Cocreli 通过将缺失信息的检测与执行阻塞在结构上耦合,解决了代理在指令不完整或不明确的情况下仍继续执行操作的问题。这确保了代理只有在满足所有必要的前置条件后才执行任务,从而防止不正确或不安全的行为。该系统在受控环境和 API 工作流任务中已证明了其有效性,在防止未解决规范下的执行方面优于现有的推理方法。

  3. RESEARCH · CL_06733 ·

    AgentHER框架通过失败轨迹重标记提升LLM代理训练

    研究人员开发了AgentHER,一个旨在通过重新利用失败轨迹来改进LLM代理训练的新框架。该系统将后视经验回放(Hindsight Experience Replay)应用于自然语言,识别失败尝试中其他可实现的目标。此方法将丢弃的数据转化为有价值的训练材料,显著提高了各种模型规模下代理的性能和数据效率。