研究人员开发了一种名为高斯探测(Gaussian probing)的新方法,用于评估开放权重生成模型中存在的有害专业化,而无需生成任何输出。该技术从模型的内部状态(如参数或表示)推断模型能力,而不是依赖可能存在问题的输出。高斯探测已证明在识别专门用于儿童性虐待材料(CSAM)的模型方面是有效的,而在此领域,直接生成受到法律限制。这种非生成式方法为审计高风险AI系统提供了一个可扩展的解决方案。 AI
影响 为在敏感领域审计AI模型提供了一种可扩展的非生成式方法,解决了模型托管平台的治理挑战。
排序理由 介绍AI模型新评估方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →