PulseAugur
实时 09:17:21
English(EN) Measuring Agents in Production

研究发现生产中的AI智能体依赖人工监督和现成模型

一项名为“衡量生产中的智能体”(MAP)的新研究分析了当前在各行业部署的基于LLM的智能体的状态。该研究基于20个案例研究和对86名从业者的调查,揭示大多数生产中的智能体在运行中依赖大量人工监督,并且依赖现成模型而非微调。可靠性被确定为主要挑战,开发人员目前通过系统级设计而非模型改进来解决它。 AI

影响 强调了生产中AI智能体部署的当前局限性和研究空白,建议关注可靠性和系统级设计。

排序理由 学术论文,详细介绍了对已部署AI智能体的研究。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Melissa Z. Pan, Negar Arabzadeh, Riccardo Cogo, Yuxuan Zhu, Alexander Xiong, Lakshya A Agrawal, Huanzhi Mao, Emma Shen, Sid Pallerla, Liana Patel, Shu Liu, Tianneng Shi, Xiaoyuan Liu, Jared Quincy Davis, Emmanuele Lacavalla, Alessandro Basile, Shuyi Yang… ·

    生产环境中的智能体评估

    arXiv:2512.04123v4 Announce Type: replace-cross Abstract: LLM-based agents already operate in production across many industries, yet we lack an understanding of what technical methods make deployments successful. We present the first systematic study of Measuring Agents in Produc…