English(EN) SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizon Embodied Scenarios

新的SWITCH基准测试AI与实体界面的闭环交互

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-30 04:00

研究人员推出了SWITCH，这是一个新的基准测试，旨在评估AI代理在现实的、以自我为中心的で环境中与实体控制界面（TCI）交互的能力。与以往侧重于简单感知或单一动作的基准测试不同，SWITCH评估闭环交互，包括跟踪状态变化、验证结果以及随时间推移进行错误恢复。该基准测试包含1170个交互式视频，并对视频生成模型进行了评估。对前沿专有和开源多模态模型的初步测试显示，在细粒度的视觉-时间感知和错误纠正方面存在显著的弱点，这凸显了SWITCH在推进具身智能方面的实用性。 AI

影响该基准测试旨在推动AI代理实现更强大、更真实的交互能力，特别是与物理界面的交互。

排序理由该集群描述了一篇介绍AI研究基准测试的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

Juntao Cheng

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Juntao Cheng, Wanyue Zhang, Zhiwei Yu, Shuo Ren, Zheqi He, Shaoxuan Xie, Guocai Yao, Jieru Lin, B\"orje F. Karlsson, Jiajun Zhang · 2026-06-30 04:00

SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizon Embodied Scenarios

arXiv:2511.17649v4 Announce Type: replace-cross Abstract: Tangible control interfaces (TCIs), such as appliance panels, remotes, elevators, and embedded GUIs, are a fundamental component of everyday human-built environments. Interacting with these interfaces requires agents not o…

报道来源 [1]

SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizon Embodied Scenarios

相关话题