Jane Street LLM 后门挑战的一名参与者分享了他们试图揭示微调模型中隐藏触发器的经验。最初,提示策略未能成功揭示后门。该挑战涉及一个较小的、可在本地运行的 Qwen2.5-7B-Instruct 模型以及通过 API 访问的较大的 DeepSeek-V3 Mixture-of-Experts 模型,后者被证明特别难以分析。 AI
影响 详细介绍了一种识别大型语言模型漏洞的新方法,可能为未来的 AI 安全研究提供信息。
排序理由 参与者关于涉及 LLM 后门的挑战的技术报告。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →