PulseAugur
实时 11:56:30
实体 Dibyanayan Bandyopadhyay

Dibyanayan Bandyopadhyay

PulseAugur coverage of Dibyanayan Bandyopadhyay — every cluster mentioning Dibyanayan Bandyopadhyay across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_98104 ·

    新框架认证语言模型中稀疏自编码器的可解释性

    研究人员开发了一个新框架,用于认证稀疏自编码器(SAE)在语言模型中使用时的可解释性。该框架通过使用源自 SAE 重构的稀疏代理来确定语言模型的风险上限。该方法已被证明在 GPT-2 Small、Gemma-2B 和 Llama-3-8B 等模型上有效,其中 Llama-3-8B 的后期层更容易认证。该方法有助于区分真正的语义对齐与纯粹的统计稀疏性,为基于 SAE 的解释的可靠性提供了一个诊断工具。