English(EN) Domain-Filtered Knowledge Graphs from Sparse Autoencoder Features

研究人员从稀疏自编码器特征构建知识图谱以实现模型可解释性

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了一种将稀疏自编码器（SAE）特征转化为结构化知识图谱的方法。该过程包括从SAE特征创建特定领域的概念宇宙，然后构建两个图视图：一个基于共现，另一个通过潜在路径链接特征。自动化标注进一步增强了这些图谱，使得能够更清晰地理解语言模型的内部知识和推理过程，正如使用生物教科书的案例研究所示。 AI

影响为解释和审计语言模型的内部知识表示提供了一个新框架。

排序理由学术论文，详细介绍了一种从AI模型特征构建知识图谱的新方法。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · John Winnicki, Abeynaya Gnanasekaran, Eric Darve · 2026-04-28 04:00

稀疏自编码器特征的领域过滤知识图谱

arXiv:2604.23829v1 Announce Type: new Abstract: Sparse autoencoders (SAEs) extract millions of interpretable features from a language model, but flat feature inventories aren't very useful on their own. Domain concepts get mixed with generic and weakly grounded features, while re…

报道来源 [1]

稀疏自编码器特征的领域过滤知识图谱

相关实体

相关话题