PulseAugur
实时 04:40:18
English(EN) SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizon Embodied Scenarios

新的SWITCH基准测试AI与实体界面的闭环交互

研究人员推出了SWITCH,这是一个新的基准测试,旨在评估AI代理在现实的、以自我为中心的で环境中与实体控制界面(TCI)交互的能力。与以往侧重于简单感知或单一动作的基准测试不同,SWITCH评估闭环交互,包括跟踪状态变化、验证结果以及随时间推移进行错误恢复。该基准测试包含1170个交互式视频,并对视频生成模型进行了评估。对前沿专有和开源多模态模型的初步测试显示,在细粒度的视觉-时间感知和错误纠正方面存在显著的弱点,这凸显了SWITCH在推进具身智能方面的实用性。 AI

影响 该基准测试旨在推动AI代理实现更强大、更真实的交互能力,特别是与物理界面的交互。

排序理由 该集群描述了一篇介绍AI研究基准测试的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的SWITCH基准测试AI与实体界面的闭环交互

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Juntao Cheng, Wanyue Zhang, Zhiwei Yu, Shuo Ren, Zheqi He, Shaoxuan Xie, Guocai Yao, Jieru Lin, B\"orje F. Karlsson, Jiajun Zhang ·

    SWITCH: Benchmarking Modeling and Handling of Tangible Interfaces in Long-horizon Embodied Scenarios

    arXiv:2511.17649v4 Announce Type: replace-cross Abstract: Tangible control interfaces (TCIs), such as appliance panels, remotes, elevators, and embedded GUIs, are a fundamental component of everyday human-built environments. Interacting with these interfaces requires agents not o…