English(EN) Uncertainty Quantification for Flow-Based Vision-Language-Action Models

新基准和方法改进了 AI 代理的不确定性量化

作者 PulseAugur 编辑部 · [3 个来源] · 2026-06-16 15:19

研究人员开发了新的方法来量化与图形用户界面 (GUI) 交互的 AI 代理以及机器人技术中使用的视觉-语言-动作模型 (VLA) 的不确定性。第一项研究“Argus”在各种代理和数据集上对 27 种方法进行了基准测试，发现不确定性排名在同一模型类别内是稳定的，但在不同模型和界面之间会下降。第二项研究为基于流匹配的 VLA 引入了速度场不一致性 (VFD)，证明了其在故障检测方面的有效性，并实现了一个名为 SAVE 的框架，该框架能够以更少的专家演示进行更高效的主动微调。 AI

影响通过改进故障检测和减少适应性所需的数据，提高了 AI 代理在 GUI 交互和机器人操作中的可靠性和效率。

排序理由该集群包含两篇学术论文，介绍了用于 AI 代理不确定性量化新基准和方法。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 3 个来源。我们如何撰写摘要 →

报道来源 [3]

arXiv cs.CL TIER_1 English(EN) · Divake Kumar, Sina Tayebati, Devashri Naik, Amanda Sofie Rios, Nilesh Ahuja, Omesh Tickoo, Ranganath Krishnan, Amit Ranjan Trivedi · 2026-06-25 04:00

面向计算机使用代理的不确定性量化：跨越视觉语言模型和GUI基础数据集的基准测试

arXiv:2606.25760v1 Announce Type: cross Abstract: Computer-use agents turn vision-language model (VLM) predictions into executable GUI clicks, so reliable uncertainty estimates are essential for rejection, calibration, miss-severity ranking, and spatial safety regions. Yet eviden…
arXiv cs.AI TIER_1 English(EN) · Amit Ranjan Trivedi · 2026-06-24 12:34

面向计算机使用代理的不确定性量化：跨越视觉语言模型和GUI基础数据集的基准测试

Computer-use agents turn vision-language model (VLM) predictions into executable GUI clicks, so reliable uncertainty estimates are essential for rejection, calibration, miss-severity ranking, and spatial safety regions. Yet evidence on post-hoc uncertainty quantification (UQ) for…
Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-16 15:19

面向流式视觉-语言-动作模型的量化不确定性

Vision-language-action models (VLAs) combine vision-language backbones with expressive generative action heads trained via flow matching on large-scale robotic datasets. Despite their strong empirical performance in robotic manipulation, VLAs lack mechanisms to quantify confidenc…

报道来源 [3]

面向计算机使用代理的不确定性量化：跨越视觉语言模型和GUI基础数据集的基准测试

面向计算机使用代理的不确定性量化：跨越视觉语言模型和GUI基础数据集的基准测试

面向流式视觉-语言-动作模型的量化不确定性

相关实体

相关话题