研究人员开发了一种名为非负每示例 Fisher 分解 (NPEFF) 的新可解释性方法,以了解语言模型如何得出其预测。NPEFF 分解每示例 Fisher 矩阵,揭示了对应于特定处理策略的组件。该方法已被证明可以分析和减轻诸如遗忘学习和上下文学习等任务中的影响,与梯度聚类和稀疏自编码器等现有技术相比具有优势。该团队还发布了 NPEFF 的代码。 AI
影响 提供了一种理解和潜在操纵内部模型行为的新工具。
排序理由 该集群包含一篇详细介绍语言模型新可解释性方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →