实体 HarDBench

HarDBench

PulseAugur coverage of HarDBench — every cluster mentioning HarDBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_82651 · Jun 10 · 04:00

新基准测试评估LLM在协作写作中的越狱风险

研究人员推出HarDBench，一个旨在评估大型语言模型（LLM）在协作写作场景中安全性的新基准测试。该基准测试侧重于“草稿式联合创作越狱攻击”，即恶意用户可能提示LLM在不完整的草稿中生成有害内容。HarDBench涵盖了爆炸物、毒品和武器等高风险领域，并包含用于测试模型易感性的真实提示。研究人员还开发了一种安全-效用平衡的对齐方法，以在不损害LLM在良性任务上的有用性的情况下减轻这些风险。