PulseAugur
实时 13:56:17
实体 mechanistic interpretability

mechanistic interpretability

PulseAugur coverage of mechanistic interpretability — every cluster mentioning mechanistic interpretability across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条
  1. TOOL · CL_32721 ·

    新的张量相似性指标有助于神经网络可解释性

    研究人员开发了一种名为张量相似性的新指标,用于评估神经网络中计算部分的函数等价性。该方法旨在对某些对称性保持不变,从而比现有的基于行为或参数的度量方法更能稳健地比较网络组件。新指标在跟踪 grokking 和后门插入等训练动态方面表现出更高的保真度,有效地将网络相似性和忠实度的验证视为一个代数问题。

  2. TOOL · CL_25533 ·

    机制可解释性研究需要更清晰的因果声明披露

    一篇新论文认为,机制可解释性研究在因果声明方面需要更加严谨。作者发现,许多论文在使用因果语言时,没有明确说明此类声明所需的潜在识别假设。他们提议研究人员遵循新的披露规范,以确保其方法论和结论的局限性具有透明度。

  3. RESEARCH · CL_12198 ·

    Goodfire发布Silico工具,用于调试和控制大型语言模型参数

    初创公司Goodfire推出了Silico,这是一个旨在帮助研究人员调试大型语言模型的新工具。该工具采用机械可解释性来映射内部模型路径,使开发人员能够在训练期间调整参数。其目的是为人工智能模型开发带来更大的科学严谨性和控制力,使其摆脱更不透明的“炼金术式”过程。