实体 Dibyanayan Bandyopadhyay

Dibyanayan Bandyopadhyay

PulseAugur coverage of Dibyanayan Bandyopadhyay — every cluster mentioning Dibyanayan Bandyopadhyay across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_98104 · Jun 16 · 18:28

新框架认证语言模型中稀疏自编码器的可解释性

研究人员开发了一个新框架，用于认证稀疏自编码器（SAE）在语言模型中使用时的可解释性。该框架通过使用源自 SAE 重构的稀疏代理来确定语言模型的风险上限。该方法已被证明在 GPT-2 Small、Gemma-2B 和 Llama-3-8B 等模型上有效，其中 Llama-3-8B 的后期层更容易认证。该方法有助于区分真正的语义对齐与纯粹的统计稀疏性，为基于 SAE 的解释的可靠性提供了一个诊断工具。

新框架认证语言模型中稀疏自编码器的可解释性