PulseAugur
实时 12:17:33
实体 HarDBench

HarDBench

PulseAugur coverage of HarDBench — every cluster mentioning HarDBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_82651 ·

    新基准测试评估LLM在协作写作中的越狱风险

    研究人员推出HarDBench,一个旨在评估大型语言模型(LLM)在协作写作场景中安全性的新基准测试。该基准测试侧重于“草稿式联合创作越狱攻击”,即恶意用户可能提示LLM在不完整的草稿中生成有害内容。HarDBench涵盖了爆炸物、毒品和武器等高风险领域,并包含用于测试模型易感性的真实提示。研究人员还开发了一种安全-效用平衡的对齐方法,以在不损害LLM在良性任务上的有用性的情况下减轻这些风险。