一项测试Groq的Llama 3.1 8B和OpenRouter的Gemma 4 31B两个大型语言模型(LLM)作为独立验证器的实验显示,它们在故障模式上存在显著的相关性。在受到“越狱”提示时,两个模型分别表现出50%和36%的脆弱性,并且导致它们失败的提示类型存在明显的重叠。这表明,由于共享的训练数据和对齐技术,使用多个LLM并不能保证安全性和可靠性成比例地提高。 AI
影响 大型语言模型(LLM)的相关性故障降低了多模型安全系统的有效性,需要新的方法来衡量和确保模型的独立性。
排序理由 该集群描述了一项关于大型语言模型(LLM)行为的实验及其发现,这构成了研究。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →