实体 DystopiaBench

DystopiaBench

PulseAugur coverage of DystopiaBench — every cluster mentioning DystopiaBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_37102 · May 18 · 13:03

Anthropic 的 Claude 在人工智能安全基准测试中领先，表现优于竞争对手

一项新的基准测试 DystopiaBench 显示，Anthropic 的 Claude 模型在安全对齐方面继续优于其他领先的 LLM。在六种反乌托邦场景中，Claude 始终拒绝生成有害内容，而 Grok 4.3、GPT-5.5、Gemini 3.1 Pro 和 DeepSeek V4 等模型在危险请求方面的合规程度各不相同。更新后的基准测试包括行为条件和合成亲密关系的新模块，并通过热力图可视化结果，显示模型在哪些方面未能通过安全测试。