PulseAugur
实时 12:52:34
English(EN) A Cost-Aware, Paired Protocol for Auditing Dynamic Tool Synthesis in Agentic Video Question Answering

新协议审计 AI 代理的准确性和成本效益

研究人员开发了一种新的协议,用于评估代理式视频问答 (VideoQA) 系统,重点关注准确性和成本。该方法将两个系统配对,共同评估正确性和推理工作量的差异,并根据这些指标将结果分为六类。当该协议应用于 Dynamic-SAGE 框架与 SAGE-Bench 上的 SAGE 基线时,结果显示 Dynamic-SAGE 将准确性提高了 7.5 个百分点,同时将推理轮次和工具调用减少了约 28%。然而,它也将 token 使用量增加了 34%,成本增加了 26%,表明推理成本发生了转移而非降低。 AI

影响 这种新的审计协议可以通过提供更清晰的成本-效益权衡图景,从而实现更高效的 AI 代理。

排序理由 该集群包含一篇学术论文,详细介绍了评估 AI 系统的新方法。 [lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新协议审计 AI 代理的准确性和成本效益

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Aseel Mohamed, Rama AlHamidi, Mohamed Rayan Barhdadi, Rasul Khanbayov, Erchin Serpedin, Hasan Kurban ·

    A Cost-Aware, Paired Protocol for Auditing Dynamic Tool Synthesis in Agentic Video Question Answering

    arXiv:2607.01469v1 Announce Type: new Abstract: Agentic Video Question Answering (VideoQA) systems invoke tools during inference, but their tool libraries are fixed, so recurring procedures are rebuilt from primitives on every question. Synthesizing composite tools could remove t…