English(EN) EgoSafetyBench: A Diagnostic Egocentric Video Benchmark for Evaluating Embodied VLMs as Runtime Safety Guards

新基准 EgoSafetyBench 测试具身视觉语言模型在运行时安全性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-02 04:00

研究人员推出了 EgoSafetyBench，这是一个新的诊断性基准，旨在评估具身视觉语言模型（VLMs）的安全能力。该基准包含 1,200 个从自我中心视角捕获的机器人视角场景，并进行了细粒度标注，以评估 VLM 在区分真正不安全情况和可能看起来令人警觉的日常活动方面的能力。评估包括关注情境危险以及误导性场景文本对 VLM 判断影响的赛道。对十种不同 VLM 的初步测试表明，尽管许多模型能够识别一般性危险，但它们通常难以识别特定的危险时刻，并且特别容易受到欺骗性视觉线索造成的错误的影响。 AI

影响该基准有望在家庭和工厂等现实环境中部署的 AI 系统中实现更强大的安全机制。

排序理由该集群描述了一篇介绍用于评估 AI 模型基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Siddhant Panpatil, Arth Singh, Mijin Koo, Chaeyun Kim, Haon Park, Dasol Choi · 2026-07-02 04:00

EgoSafetyBench: A Diagnostic Egocentric Video Benchmark for Evaluating Embodied VLMs as Runtime Safety Guards

arXiv:2607.00218v1 Announce Type: cross Abstract: Vision-language models (VLMs) are now proposed as runtime safety guards for embodied agents in homes and factories. A deployable guard must catch genuinely unsafe situations while avoiding unnecessary intervention on routine but s…

报道来源 [1]

EgoSafetyBench: A Diagnostic Egocentric Video Benchmark for Evaluating Embodied VLMs as Runtime Safety Guards

相关实体

相关话题