实体 RoboTrustBench

RoboTrustBench

PulseAugur coverage of RoboTrustBench — every cluster mentioning RoboTrustBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_65852 · May 31 · 00:00

新基准测试机器人操作模型的可信度

研究人员开发了新的基准来评估用于机器人操作的视频世界模型的可信度。这些基准使用真实的DROID片段，在正常、约束敏感、反事实和对抗性场景下评估模型。初步评估显示，尽管当前模型可以生成视觉上连贯的视频，但它们在推理约束、物理交互和抑制不安全指令方面存在困难，这表明仅凭视觉质量不足以满足可靠的机器人应用。