实体 Sparse Autoencoders

Sparse Autoencoders

PulseAugur coverage of Sparse Autoencoders — every cluster mentioning Sparse Autoencoders across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 61

发布 · 30天

90 天内 0

论文 · 30天

90 天内 61

层级分布 · 90 天

主题

论文 61
模型发布 29
其他 21
安全 15
基础设施 1
产品 1

关系

instance of Saessolsheim 90%
used by Gotit.pub 70%
used by Saessolsheim 70%
used by UniProt 70%

时间线

2026-05-25 research_milestone Researchers published a paper detailing a new method for multilingual language steering in LLMs using sparse autoencoders. 来源
2026-05-21 research_milestone Researchers published a paper detailing a new method for multilingual steering in LLMs using sparse autoencoders. 来源

情绪 · 30 天

12 天有情绪数据

最近 · 第 1/4 页 · 共 61 条

RESEARCH · CL_133193 · Jul 8 · 12:04

新论文详述神经网络的机制可解释性

一篇新论文全面概述了机制可解释性，该领域专注于逆向工程神经网络的内部算法。论文详细介绍了 Transformer 电路分析，包括注意力机制和归纳头等组件，并使用稀疏自编码器等工具解决了叠加和多义性等挑战。研究还探讨了控制模型行为的方法，并将这些见解与神经符号 AI 框架联系起来，用于将神经表征转化为逻辑规则。
TOOL · CL_131499 · Jul 8 · 04:00

新研究区分基础模型与“思考”模型

一篇新的arXiv论文提出了一种区分基础语言模型和经过进一步训练的“思考”模型的方法。该研究引入了无监督技术来识别推理行为，并重构基础模型和微调模型之间的差异。研究结果表明，强化学习主要教会模型何时使用现有的推理能力，而监督微调则安装新的能力，这为开发更有效的推理模型提供了见解。
RESEARCH · CL_128998 · Jul 7 · 04:00

新论文强调稀疏自编码器的关键 L0 超参数

两篇新的 arXiv 论文探讨了稀疏自编码器（SAE）在理解大型语言模型（LLM）方面的效用和正确应用。第一篇论文《稀疏但错误》（Sparse but Wrong）认为，L0 超参数对于 SAE 正确分离特征至关重要，并且许多当前的 SAE 使用的 L0 过低，导致特征混合或退化。第二篇论文《Position: Use Sparse Autoencoders to Discover Unknowns》通过提出 SAEs 更擅长发现未知…
TOOL · CL_123051 · Jul 3 · 04:00

Expander SAEs 为神经网络可解释性提供参数高效的字典

研究人员引入了 Expander Sparse Autoencoders (SAEs)，一种使用参数高效字典来解释神经网络激活的新方法。与传统的 SAE 相比，该方法显著减少了学习到的解码器值数量，使其更易于扩展到大型模型。在 Pythia、Qwen2.5-3B 和 Llama 3.2 1B 等模型上的实验表明，Expander SAEs 在存储-保真度权衡方面具有竞争力，使用的参数明显更少，同时保留了高百分比的恢复 CE 损失。
TOOL · CL_123023 · Jul 3 · 04:00

新方法解读神经量子态的内部表征

研究人员开发了一种新颖的方法，利用稀疏自编码器来解读神经量子态（NQS）的内部工作机制。该方法成功地识别了 NQS 中与物理可观测量（如序参量和磁化强度）相关的特征，即使没有明确的物理标签。此外，该研究表明，这些已识别的特征可以对预测的物理可观测量产生因果影响，为理解和提高 NQS 的可靠性和透明度提供了新工具。
RESEARCH · CL_119526 · Jun 30 · 09:22

AI研究解决生物数据中的叠加问题以提高可解释性

研究人员开发了一种新方法，使用稀疏自编码器（SAEs）来解决人工智能中的叠加问题，特别是在高维生物数据中。该技术旨在通过净化潜在空间（通常被叠加破坏）的几何保真度来提高可解释性并对齐跨模态数据。该方法应用于与帕金森病相关的患者来源的神经元图像超过10万张。此外，还引入了一个名为GW-map的新工具，该工具使用Gromov-Wasserstein最优传输将图像表示与单细胞RNA测序数据对齐，从而无需参考空间转录组学即可重建分层神经病理学通路。
RESEARCH · CL_117828 · Jun 30 · 04:00

新研究探索多模态和稀疏自编码器方法以对抗大型语言模型越狱

研究人员正在开发新的方法来对抗对语音语言模型（SLM）的越狱攻击。一种方法 JAMA 使用联合多模态优化框架同时攻击音频和文本模态，证明比单模态攻击更有效。另一项研究提出使用稀疏自编码器（SAE）进行大型语言模型越狱缓解，证明在稀疏 SAE 特征空间中进行引导比在密集激活空间中进行防御具有优势。
TOOL · CL_117810 · Jun 30 · 04:00

新的机械式主题模型使用稀疏自编码器进行更深入的文本分析

研究人员开发了机械式主题模型（MTMs），该模型利用稀疏自编码器（SAEs）来揭示文本集合中更深层次的概念主题。与依赖词语列表的传统主题模型不同，MTMs 在 SAEs 学到的语义丰富的特征上运行，从而能够进行更具表现力的主题描述。这种方法还通过主题引导向量实现了可控的文本生成。引入了一个名为“主题法官”的基于 LLM 的评估框架，用于将 MTM 主题与词语列表方法进行比较，MTMs 在多个数据集上均表现出相当或更优的性能。
TOOL · CL_117776 · Jun 30 · 04:00

新的SAE方法简化了长上下文语言模型的解释性

研究人员开发了轮次平均稀疏自编码器（SAE）来提高语言模型的解释性，尤其是在长上下文方面。与处理单个token激活的标准SAE不同，新方法在整个轮次（人类或助手）上平均激活，用固定数量的特征来表示它。这种方法简化了对长模型对话记录的研究，并使解释性技术在扩展上下文中更加实用。
TOOL · CL_117469 · Jun 30 · 04:00

新方法通过潜在特征干预引导LLM人格

研究人员开发了一种新颖的方法，通过直接干预大型语言模型（LLMs）的潜在特征来分析和引导其人格特质。该方法利用稀疏自编码器和对比激活分析来识别与特定OCEAN人格特质相对应的潜在方向。通过对模型隐藏状态应用加性偏移，可以在保持整体语言建模性能的同时，增强目标人格表达。采用线性加权启发式方法来优化人格引导与任务性能之间的平衡。
RESEARCH · CL_117250 · Jun 29 · 17:45

新研究解决稀疏自编码器中的可解释性挑战 · 2篇论文

两篇新研究论文解决了使用稀疏自编码器（SAE）解释大型语言模型时面临的挑战。第一篇论文介绍了C$^2$R（跨样本一致性正则化），以缓解特征分裂和吸收问题，这些问题源于跨样本的不一致的潜在分配。第二篇论文识别并解决了视觉-语言模型中的跨模态特征异质性问题，在这种情况下，相同概念根据其在图像或文本嵌入中的表示，可能会激活不同的潜在方向。
TOOL · CL_115690 · Jun 29 · 04:00

PairSAE方法增强了蛋白质共折叠模型的可解释性

研究人员开发了PairSAE，一种在蛋白质共折叠基础模型中实现机制可解释性的新方法。与难以处理成对表示的二次特征爆炸的标准稀疏自编码器不同，PairSAE使用N模SVD总结这些张量，以识别token级别的交互作用。这种方法能够学习共享的token级别特征，这些特征可以解码为序列和对表示，从而更清晰地了解模型对结构生物学概念的理解。
RESEARCH · CL_115206 · Jun 26 · 10:30

新的 VASAE 方法通过词汇内在命名 AI 模型特征

研究人员开发了一种名为词汇对齐稀疏自编码器（VASAE）的新方法，用于内在命名 Transformer 模型中稀疏自编码器学习到的特征。该方法将 SAE 特征与 Transformer 的词汇表对齐，根据最近的词汇嵌入为每个特征分配名称。VASAE 在保持重建质量的同时，生成了具有词汇对齐特征的字典，在 GPT-2-small 和 Llama-3.1-8B 等模型中，尤其是在较浅层中，显示出高对齐率。案例研究表明，这些内在词汇名称与附…
RESEARCH · CL_115292 · Jun 26 · 03:43

新研究推动扩散模型在图像编辑、数据增强和遗忘方面的进展

研究人员正在探索扩散模型的先进技术，重点是改进图像编辑、数据增强和遗忘能力。新方法旨在通过改进ODE求解器和矢量场平滑来提高图像编辑的稳定性和保真度。对于数据增强，正在开发不确定性指导策略，通过关注信息区域来改进语义分割模型。此外，扩散模型遗忘方面的进展正在取得，研究调查了选择性遗忘和使用稀疏自编码器将概念检测与干预分离，旨在获得更清晰的结果并更好地保留模型质量。
RESEARCH · CL_111220 · Jun 25 · 15:59

通过特征引导改进大型语言模型的预测能力

研究人员开发了一种方法来提高大型语言模型（LLMs）在预测任务中的泛化能力。通过使用稀疏自编码器分析 LLM 的内部状态，他们识别出与时间感知和前瞻性推理相关的特征。通过干预这些特征，特别是放大时间感知能力，发现在不影响一般推理性能的情况下，显著减少了预测提示中的前瞻性偏差。这表明可以利用可解释的时间特征来引导 LLM 进行更基于历史且可靠的推理。
RESEARCH · CL_107742 · Jun 23 · 15:39

新研究探索稀疏自编码器在人工智能可解释性和泛化方面的应用

研究人员正在探索稀疏自编码器（SAEs）来解释复杂的语言和视觉模型。一篇论文介绍了用于各种Qwen3模型尺寸的Qwen3-Instruct SAEs，展示了它们在引导模型行为方面的应用。另一项研究调查了SAEs如何揭示Transformer泛化的局限性并提高对分布外输入的鲁棒性。第三篇论文提出新的稀疏正则化器来增强Top-k SAEs的可解释性，表明它们可以补充架构稀疏性。最后，提出了一个使用概念标注和合成基准来评估SAE可解释性的框…
RESEARCH · CL_106825 · Jun 22 · 15:05

新研究探讨AI位置编码器的可解释性 · 跟踪2个来源

两篇新研究论文探讨了机器学习中使用的位置编码器的可解释性和空间效应捕获能力。第一篇论文分析了地理隐式神经表示，使用稀疏自编码器和CLIP Surgery等技术，将位置嵌入分解为人类可解释的特征，如稀疏潜在概念、自然语言概念和视觉特征。第二篇论文使用一种名为GeoShapley的博弈论解释器，对TorchSpatial框架中的十一个编码器进行了基准测试，以评估它们在不同尺度上从模型中恢复空间变化系数的能力。两项研究都旨在提供更好的工具来…
TOOL · CL_105118 · Jun 22 · 14:59

使用稀疏自编码器分析化学语言模型的内部表征

一篇新研究论文通过将稀疏自编码器（SAE）应用于MolFormer，探讨了化学语言模型（cLMs）的内部工作机制。研究表明，模型的早期层关注句法模式和位置跟踪，而后期层则捕获更多有意义的语义信息，包括药理学相关特征。研究还发现，非规范SMILES字符串比无效SMILES字符串对模型表征的干扰更大，这凸显了输入格式的重要性。为了便于进一步研究，作者开发了InterMol，一个用于可视化SAE激活的交互式工具。
RESEARCH · CL_98104 · Jun 16 · 18:28

新框架认证语言模型中稀疏自编码器的可解释性

研究人员开发了一个新框架，用于认证稀疏自编码器（SAE）在语言模型中使用时的可解释性。该框架通过使用源自 SAE 重构的稀疏代理来确定语言模型的风险上限。该方法已被证明在 GPT-2 Small、Gemma-2B 和 Llama-3-8B 等模型上有效，其中 Llama-3-8B 的后期层更容易认证。该方法有助于区分真正的语义对齐与纯粹的统计稀疏性，为基于 SAE 的解释的可靠性提供了一个诊断工具。
RESEARCH · CL_95864 · Jun 16 · 09:22

新研究解决 LVLM 幻觉问题并改进视觉-语言学习

研究人员正在开发新方法来提高大型视觉-语言模型 (LVLM) 的鲁棒性和能力。一种名为 SeeMe 的方法侧重于通过工程化视觉标记来抑制不相关信息同时保留关键证据，从而减轻幻觉。另一个框架 Text as Partial Constraint (TPC) 旨在通过将多视图字幕视为不完整监督并提炼共识语义核心来创建更可靠的表示。此外，还在探索像 HiMe 这样的新架构，用于长视域的视觉-语言-动作控制，将具身智能解耦为分层组件，以实现更…

新论文详述神经网络的机制可解释性

新研究区分基础模型与“思考”模型

新论文强调稀疏自编码器的关键 L0 超参数

Expander SAEs 为神经网络可解释性提供参数高效的字典

新方法解读神经量子态的内部表征

AI研究解决生物数据中的叠加问题以提高可解释性

新研究探索多模态和稀疏自编码器方法以对抗大型语言模型越狱

新的机械式主题模型使用稀疏自编码器进行更深入的文本分析

新的SAE方法简化了长上下文语言模型的解释性

新方法通过潜在特征干预引导LLM人格

新研究解决稀疏自编码器中的可解释性挑战 · 2篇论文

PairSAE方法增强了蛋白质共折叠模型的可解释性

新的 VASAE 方法通过词汇内在命名 AI 模型特征

新研究推动扩散模型在图像编辑、数据增强和遗忘方面的进展

通过特征引导改进大型语言模型的预测能力

新研究探索稀疏自编码器在人工智能可解释性和泛化方面的应用

新研究探讨AI位置编码器的可解释性 · 跟踪2个来源

使用稀疏自编码器分析化学语言模型的内部表征

新框架认证语言模型中稀疏自编码器的可解释性

新研究解决 LVLM 幻觉问题并改进视觉-语言学习