一项旨在测试 Meta 的 Llama 3.1 8B 模型安全防护栏的挑战已经发出。目标是看用户是否能成功“破解”该模型,迫使其偏离指导学生解决科学和数学问题而不提供直接答案的既定指令。参与者有有限次数的提示来尝试破解该代理,成功定义为引发直接答案或导致代理偏离主题。该挑战是测试旨在强制执行对齐的运行时治理引擎的一部分。 AI
影响 测试开源模型安全防护栏的有效性,可能影响未来的对齐策略。
排序理由 该集群描述了对现有开源模型的红队测试挑战,属于人工智能安全和对齐研究的范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →