PulseAugur
实时 19:57:33
None Looking for backdoors in Jane Street LLMs

Jane Street LLM 后门挑战揭示 DeepSeek-V3 漏洞

Jane Street LLM 后门挑战的一名参与者分享了他们试图揭示微调模型中隐藏触发器的经验。最初,提示策略未能成功揭示后门。该挑战涉及一个较小的、可在本地运行的 Qwen2.5-7B-Instruct 模型以及通过 API 访问的较大的 DeepSeek-V3 Mixture-of-Experts 模型,后者被证明特别难以分析。 AI

影响 详细介绍了一种识别大型语言模型漏洞的新方法,可能为未来的 AI 安全研究提供信息。

排序理由 参与者关于涉及 LLM 后门的挑战的技术报告。[lever_c_demoted from research: ic=1 ai=1.0]

在 LessWrong (AI tag) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

Jane Street LLM 后门挑战揭示 DeepSeek-V3 漏洞

报道来源 [1]

  1. LessWrong (AI tag) TIER_1 · Cipolla ·

    Looking for backdoors in Jane Street LLMs

    <p><i><span>I am going to talk about my experience in the Jane Street LLM backdoor challenge. I am sharing partial results. I managed to crack some of the models using white-box methods, after the activation/prompting approach didn't pan out. Happy to discuss better or more promi…