研究人员推出了 EgoSafetyBench,这是一个新的诊断性基准,旨在评估具身视觉语言模型(VLMs)的安全能力。该基准包含 1,200 个从自我中心视角捕获的机器人视角场景,并进行了细粒度标注,以评估 VLM 在区分真正不安全情况和可能看起来令人警觉的日常活动方面的能力。评估包括关注情境危险以及误导性场景文本对 VLM 判断影响的赛道。对十种不同 VLM 的初步测试表明,尽管许多模型能够识别一般性危险,但它们通常难以识别特定的危险时刻,并且特别容易受到欺骗性视觉线索造成的错误的影响。 AI
影响 该基准有望在家庭和工厂等现实环境中部署的 AI 系统中实现更强大的安全机制。
排序理由 该集群描述了一篇介绍用于评估 AI 模型基准的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- CatalyzeX Code Finder for Papers
- CORE Recommender
- DagsHub
- EgoSafetyBench
- Gotit.pub
- Hugging Face
- Robots
- ScienceCast
- Vision--Language Models
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →