研究人员开发了一个名为When2Tool的新基准,用于评估大型语言模型(LLM)代理何时应使用外部工具。该基准显示,LLM对其内部的工具必要性具有理解能力,这种能力可以从其隐藏状态中检测到,但在生成过程中未能将这种知识付诸行动。一种名为Probe&Prefill的提议方法利用了这种内部信号,在准确性损失极小的情况下显著减少了不必要的工具调用,其表现优于现有基线。 AI
影响 通过减少不必要的工具调用来提高LLM代理的效率,可能降低AI应用的成本和延迟。
排序理由 该集群包含一篇学术论文,提出了一种评估LLM代理工具使用的新基准和方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →