PulseAugur
实时 06:40:20
实体 CIAware-Bench

CIAware-Bench

PulseAugur coverage of CIAware-Bench — every cluster mentioning CIAware-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_82128 ·

    新基准测试显示前沿大语言模型难以检测到AI控制干预

    研究人员开发了CIAware-Bench,一个旨在评估前沿大语言模型在多大程度上能够检测其输出是否被AI控制协议篡改的新基准测试。该基准测试在四个领域对模型进行测试,发现当前模型对这些干预的意识水平较低到中等,并且经常利用提供商特定的风格差异。这表明控制干预意识并非模型固有的属性,需要针对每个新模型发布和部署场景进行测量。