研究人员开发了一种新的无监督方法,通过对齐语义内容和内部计算机制来发现大型语言模型中的特征。该方法根据模型输出的含义及其潜在的归因签名对其进行聚类,而无需预定义的输出目标。发现的聚类揭示了传统方法可能忽略的多种延续模式,为审计大型语言模型的内部工作提供了一种可扩展的方法。 AI
影响 提供了一种审计大型语言模型内部计算的新颖方法,增强了模型的安全性和可解释性。
排序理由 该集群包含一篇详细介绍新研究方法的学术论文。
- arXiv
- Shared Semantics, Divergent Mechanisms: Unsupervised Feature Discovery by Aligning Semantics and Mechanisms
- large language models
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →