English(EN) See Less, Specify More: Visual Evidence Budgets for Generalizable VLAs

新的S2框架通过证据预算提升VLA模型泛化能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员开发了一个名为S2（See Less, Specify More，少看多说）的新框架，以增强视觉-语言-动作（VLA）模型的泛化能力。S2通过保留高级指令并用更具体的语言重新标注轨迹来优化执行器的训练。它还强制执行视觉证据预算，训练模型根据任务充分的视觉信息而非无约束的上下文来行动。这种方法显著提高了机器人在实际任务中的成功率，在TX-G2和HSR机器人上将平均子任务成功率从54.2%提高到79.0%。 AI

影响增强了VLA模型的泛化能力，有望带来更强大的机器人控制和AI代理。

排序理由这是一篇详细介绍改进VLA模型新框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yueh-Hua Wu, Tatsuya Matsushima, Kei Ota · 2026-06-03 04:00

少看多说：面向通用视觉语言模型的视觉证据预算

arXiv:2606.02735v1 Announce Type: cross Abstract: Generalization remains a central bottleneck for vision-language-action (VLA) models: under distractors, appearance shifts, and semantically similar tasks, the policy must often infer local execution details from coarse instruction…

报道来源 [1]

少看多说：面向通用视觉语言模型的视觉证据预算

相关实体

相关话题