PulseAugur
实时 20:58:20
实体 Hannah Cyberey

Hannah Cyberey

PulseAugur coverage of Hannah Cyberey — every cluster mentioning Hannah Cyberey across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_119638 ·

    新的白盒审计方法揭示隐藏的LLM偏见

    研究人员开发了一个新的大型语言模型(LLM)审计框架,该框架超越了传统的黑盒测试。这种白盒方法利用激活引导来检查模型的内部工作机制,从而进行更严格的敏感性测试。该方法操纵模型内的关键概念,以评估其在决策任务中对性别等受保护属性的依赖性。在模拟高风险场景中的初步应用显示,即使黑盒评估表明偏见很小,模型也严重依赖这些属性。