实体 Andrzej Szablewski

Andrzej Szablewski

PulseAugur coverage of Andrzej Szablewski — every cluster mentioning Andrzej Szablewski across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_121146 · Jul 1 · 15:01

模型生物的可解释性随训练方法而异

一项新的研究论文探讨了“模型生物”（MOs）作为AI可解释性技术测试平台的有效性。研究人员使用OLMo2-1B和gemma-3-1b-it架构，通过七种不同的训练方法（包括标准的事后微调和集成训练）构建了54个MOs。研究发现，MO的可解释性高度依赖于训练目标、模型架构和数据生成流程，其中集成训练通常比传统的事后方法产生更不可解释的MOs。这些发现对当前用于评估可解释性技术的MOs的有效性提出了重大疑问。

模型生物的可解释性随训练方法而异