Jane Street 举办的一项旨在寻找大型语言模型中隐藏后门的挑战,揭示了模型漏洞的见解。在最初的激活和提示方法尝试失败后,作者使用白盒方法成功识别了一些后门。该挑战涉及四个模型,包括一个微调的 Qwen2.5-7B-Instruct 和三个大型 DeepSeek-V3 Mixture-of-Experts 模型,通过 API 访问大型模型。 AI
影响 强调了 LLM 中潜在的安全风险以及检测和缓解此类漏洞的持续研究。
排序理由 该项目详细介绍了一项专注于识别 LLM 中漏洞(后门)的挑战,属于 AI 安全研究范畴。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →