PulseAugur
实时 12:52:08
English(EN) Uncertainty Quantification for Flow-Based Vision-Language-Action Models

新基准和方法改进了 AI 代理的不确定性量化

研究人员开发了新的方法来量化与图形用户界面 (GUI) 交互的 AI 代理以及机器人技术中使用的视觉-语言-动作模型 (VLA) 的不确定性。第一项研究“Argus”在各种代理和数据集上对 27 种方法进行了基准测试,发现不确定性排名在同一模型类别内是稳定的,但在不同模型和界面之间会下降。第二项研究为基于流匹配的 VLA 引入了速度场不一致性 (VFD),证明了其在故障检测方面的有效性,并实现了一个名为 SAVE 的框架,该框架能够以更少的专家演示进行更高效的主动微调。 AI

影响 通过改进故障检测和减少适应性所需的数据,提高了 AI 代理在 GUI 交互和机器人操作中的可靠性和效率。

排序理由 该集群包含两篇学术论文,介绍了用于 AI 代理不确定性量化新基准和方法。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →

新基准和方法改进了 AI 代理的不确定性量化

报道来源 [3]

  1. arXiv cs.CL TIER_1 English(EN) · Divake Kumar, Sina Tayebati, Devashri Naik, Amanda Sofie Rios, Nilesh Ahuja, Omesh Tickoo, Ranganath Krishnan, Amit Ranjan Trivedi ·

    面向计算机使用代理的不确定性量化:跨越视觉语言模型和GUI基础数据集的基准测试

    arXiv:2606.25760v1 Announce Type: cross Abstract: Computer-use agents turn vision-language model (VLM) predictions into executable GUI clicks, so reliable uncertainty estimates are essential for rejection, calibration, miss-severity ranking, and spatial safety regions. Yet eviden…

  2. arXiv cs.AI TIER_1 English(EN) · Amit Ranjan Trivedi ·

    面向计算机使用代理的不确定性量化:跨越视觉语言模型和GUI基础数据集的基准测试

    Computer-use agents turn vision-language model (VLM) predictions into executable GUI clicks, so reliable uncertainty estimates are essential for rejection, calibration, miss-severity ranking, and spatial safety regions. Yet evidence on post-hoc uncertainty quantification (UQ) for…

  3. Hugging Face Daily Papers TIER_1 English(EN) ·

    面向流式视觉-语言-动作模型的量化不确定性

    Vision-language-action models (VLAs) combine vision-language backbones with expressive generative action heads trained via flow matching on large-scale robotic datasets. Despite their strong empirical performance in robotic manipulation, VLAs lack mechanisms to quantify confidenc…