研究人员开发了一种新的协议,用于评估代理式视频问答 (VideoQA) 系统,重点关注准确性和成本。该方法将两个系统配对,共同评估正确性和推理工作量的差异,并根据这些指标将结果分为六类。当该协议应用于 Dynamic-SAGE 框架与 SAGE-Bench 上的 SAGE 基线时,结果显示 Dynamic-SAGE 将准确性提高了 7.5 个百分点,同时将推理轮次和工具调用减少了约 28%。然而,它也将 token 使用量增加了 34%,成本增加了 26%,表明推理成本发生了转移而非降低。 AI
影响 这种新的审计协议可以通过提供更清晰的成本-效益权衡图景,从而实现更高效的 AI 代理。
排序理由 该集群包含一篇学术论文,详细介绍了评估 AI 系统的新方法。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →