研究人员在大型语言模型中发现了一个两阶段电路,使其能够检测何时注入了外部引导向量。这种内省意识能力是在训练后出现的,尤其是在偏好优化过程中,而基础模型则不具备这种能力。研究表明,这种意识的利用率显著不足,并且可以通过改进检测机制和减少拒绝行为来在未来模型中得到增强。 AI
影响 揭示了大型语言模型自我意识的潜在机制,预示着未来模型在安全性和可控性方面有增强的潜力。
排序理由 该集群包含一篇详细介绍大型语言模型机制研究成果的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →