实体 ToolBench

ToolBench

PulseAugur coverage of ToolBench — every cluster mentioning ToolBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

4

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

3

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

RESEARCH · CL_135151 · Jul 9 · 12:25

新的TRACE水印确保LLM代理轨迹的来源

研究人员开发了TRACE，一种新颖的双通道水印，旨在确保LLM代理轨迹的来源。该系统能够抵御可能试图重新品牌化或替换代理的对手，因为它将水印直接嵌入到轨迹日志中。TRACE利用一个基于局部内容进行无失真动作选择的选择通道，以及一个基于日志骨架以在重写下保持不变的计数通道，从而确保即使日志被篡改也能进行归因。
TOOL · CL_119480 · Jul 1 · 04:00

AI代理使用自动化技能描述优化来提高路由准确性

研究人员开发了一个自动管道来优化企业AI代理的技能描述，显著减少了防止查询路由错误的工程工作量。该管道在一个拥有9个技能的生产代理上达到了79.2%的平均F1分数，与手动调整的描述相匹配，同时将过程速度提高了32倍。研究发现，使用反馈案例的单次LLM重写是最有影响力的组成部分，它提高了路由准确性，并识别出需要进行架构更改而非文本级别调整的情况。
RESEARCH · CL_58622 · May 28 · 00:00

CoHyDE方法通过协同训练的编码器和重写器改进LLM代理工具检索

研究人员开发了CoHyDE，一种新颖的迭代协同训练方法，旨在增强LLM代理的工具检索能力。该方法联合训练一个密集编码器和一个LLM重写器，解决了用户口语化查询与技术API目录之间的词汇不匹配问题。CoHyDE通过使编码器和重写器协同进化并更好地与工具目录对齐，展示了显著的改进，尤其是在模糊查询方面。
TOOL · CL_44838 · May 22 · 04:00

NaviAgent 通过双层规划改进 LLM 工具编排

研究人员开发了 NaviAgent，一个旨在改进大型语言模型（LLM）如何编排使用外部工具的新系统。NaviAgent 采用双层架构，将任务规划与工具执行分开，并使用基于图的模型来理解数百甚至数千个工具之间的关系。这种方法旨在通过允许代理独立于工具间的复杂性来规划工具链，从而减少错误并提高可扩展性。在 API-Bank 和 ToolBench 等基准测试上的评估表明，任务成功率显著提高，尤其是在复杂任务方面。
TOOL · CL_15958 · May 5 · 04:00

Cocoreli架构强制执行前置条件以实现可靠的指令遵循

研究人员推出了一种名为 Cocoreli 的新颖架构，旨在提高自主代理执行人类指令的可靠性。Cocreli 通过将缺失信息的检测与执行阻塞在结构上耦合，解决了代理在指令不完整或不明确的情况下仍继续执行操作的问题。这确保了代理只有在满足所有必要的前置条件后才执行任务，从而防止不正确或不安全的行为。该系统在受控环境和 API 工作流任务中已证明了其有效性，在防止未解决规范下的执行方面优于现有的推理方法。
RESEARCH · CL_06733 · Apr 28 · 04:00

AgentHER框架通过失败轨迹重标记提升LLM代理训练

研究人员开发了AgentHER，一个旨在通过重新利用失败轨迹来改进LLM代理训练的新框架。该系统将后视经验回放（Hindsight Experience Replay）应用于自然语言，识别失败尝试中其他可实现的目标。此方法将丢弃的数据转化为有价值的训练材料，显著提高了各种模型规模下代理的性能和数据效率。