一项新研究质疑了多模态AI智能体在工具使用方面的有效性,认为观察到的基准提升可能并非源于真实的能力提升。研究人员发现,像Thyme和DeepEyesV2这样的智能体在获得工具访问权限后,一致性的提升非常小,即使没有工具也能解决大多数问题。研究表明,这些智能体可能只是学会了模仿工具调用模式,而不是真正利用工具来增强解决问题的能力。 AI
影响 挑战了工具使用能固有地提升AI智能体能力的假设,促使重新评估当前的评估方法。
排序理由 学术论文,提出了新的研究发现。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →