PulseAugur
实时 14:22:19
English(EN) PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding

PolySAE 通过对特征交互进行建模来增强 AI 可解释性

研究人员开发了一种新颖的方法 PolySAE,通过对特征交互进行建模来增强稀疏自编码器 (SAE)。与假设特征组合是加性的传统 SAE 不同,PolySAE 包含高阶多项式项,以捕获组合结构和特征之间的依赖关系。该方法在四个语言模型上进行了演示,在探测任务中可解释性提高了约 8%,同时保持了重建准确性,并表明学习到的交互在很大程度上独立于表面统计。 AI

影响 引入了一种更好地理解和解释神经网络内部工作原理的方法,有望带来更可靠、更易于调试的 AI 系统。

排序理由 该集群包含一篇研究论文,详细介绍了一种分析神经网络表示的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou ·

    PolySAE:通过多项式解码对稀疏自编码器中的特征交互进行建模

    arXiv:2602.01322v2 Announce Type: replace-cross Abstract: Sparse autoencoders (SAEs) interpret neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume features combine additively through linear reconstruction, a…