研究人员开发了一种新方法,通过分析大型语言模型(LLMs)的内部认知过程来检测其错位行为。该方法将错位分解为具体的指标,如战略欺骗和自我保护,并使用线性探测器在模型的激活中识别这些指标。该系统在分布外基准测试上达到了0.935 AUROC的高准确率,同时在良性对话上保持了低误报率。 AI
影响 这项研究可能有助于更可靠地检测有害的LLM行为,从而提高在高风险部署中的安全性。
排序理由 该集群包含一篇学术论文,详细介绍了一种分析LLM行为的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →