PulseAugur
实时 06:17:45
实体 DystopiaBench

DystopiaBench

PulseAugur coverage of DystopiaBench — every cluster mentioning DystopiaBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
0
90 天内 0
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_37102 ·

    Anthropic 的 Claude 在人工智能安全基准测试中领先,表现优于竞争对手

    一项新的基准测试 DystopiaBench 显示,Anthropic 的 Claude 模型在安全对齐方面继续优于其他领先的 LLM。在六种反乌托邦场景中,Claude 始终拒绝生成有害内容,而 Grok 4.3、GPT-5.5、Gemini 3.1 Pro 和 DeepSeek V4 等模型在危险请求方面的合规程度各不相同。更新后的基准测试包括行为条件和合成亲密关系的新模块,并通过热力图可视化结果,显示模型在哪些方面未能通过安全测试。