实体 EgoSafetyBench

EgoSafetyBench

PulseAugur coverage of EgoSafetyBench — every cluster mentioning EgoSafetyBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_121483 · Jul 2 · 04:00

新基准 EgoSafetyBench 测试具身视觉语言模型在运行时安全性

研究人员推出了 EgoSafetyBench，这是一个新的诊断性基准，旨在评估具身视觉语言模型（VLMs）的安全能力。该基准包含 1,200 个从自我中心视角捕获的机器人视角场景，并进行了细粒度标注，以评估 VLM 在区分真正不安全情况和可能看起来令人警觉的日常活动方面的能力。评估包括关注情境危险以及误导性场景文本对 VLM 判断影响的赛道。对十种不同 VLM 的初步测试表明，尽管许多模型能够识别一般性危险，但它们通常难以识别特定的危…