English(EN) Looking for backdoors in Jane Street LLMs

Jane Street LLM 后门挑战揭示 DeepSeek-V3 漏洞

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-23 02:17

Jane Street LLM 后门挑战的一名参与者分享了他们试图揭示微调模型中隐藏触发器的经验。最初，提示策略未能成功揭示后门。该挑战涉及一个较小的、可在本地运行的 Qwen2.5-7B-Instruct 模型以及通过 API 访问的较大的 DeepSeek-V3 Mixture-of-Experts 模型，后者被证明特别难以分析。 AI

影响详细介绍了一种识别大型语言模型漏洞的新方法，可能为未来的 AI 安全研究提供信息。

排序理由参与者关于涉及 LLM 后门的挑战的技术报告。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

其他

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

LessWrong (AI tag) TIER_1 English(EN) · Cipolla · 2026-05-23 02:17

寻找Jane Street大语言模型中的后门

<p><i><span>I am going to talk about my experience in the Jane Street LLM backdoor challenge. I am sharing partial results. I managed to crack some of the models using white-box methods, after the activation/prompting approach didn't pan out. Happy to discuss better or more promi…

报道来源 [1]

寻找Jane Street大语言模型中的后门

相关实体

相关话题