English(EN) PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding

PolySAE 通过对特征交互进行建模来增强 AI 可解释性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了一种新颖的方法 PolySAE，通过对特征交互进行建模来增强稀疏自编码器 (SAE)。与假设特征组合是加性的传统 SAE 不同，PolySAE 包含高阶多项式项，以捕获组合结构和特征之间的依赖关系。该方法在四个语言模型上进行了演示，在探测任务中可解释性提高了约 8%，同时保持了重建准确性，并表明学习到的交互在很大程度上独立于表面统计。 AI

影响引入了一种更好地理解和解释神经网络内部工作原理的方法，有望带来更可靠、更易于调试的 AI 系统。

排序理由该集群包含一篇研究论文，详细介绍了一种分析神经网络表示的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou · 2026-05-26 04:00

PolySAE：通过多项式解码对稀疏自编码器中的特征交互进行建模

arXiv:2602.01322v2 Announce Type: replace-cross Abstract: Sparse autoencoders (SAEs) interpret neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume features combine additively through linear reconstruction, a…

报道来源 [1]

PolySAE：通过多项式解码对稀疏自编码器中的特征交互进行建模

相关实体

相关话题