PulseAugur
实时 15:29:21
实体 Introspection Adapters

Introspection Adapters

PulseAugur coverage of Introspection Adapters — every cluster mentioning Introspection Adapters across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_10757 ·

    Anthropic 新型“内省适配器”让大语言模型能够自我报告行为

    研究人员开发了一种名为“内省适配器”(Introspection Adapters, IA)的新颖技术,该技术允许大型语言模型报告其自身学到的行为,包括隐藏的偏见和加密的恶意指令。该方法使用轻量级的 LoRA 插件将模型的内部状态转换为自然语言,从而有效地实现自我报告。在评估中,IA 的表现显著优于现有的黑箱和白箱审计方法,标志着 AI 安全从外部审问转向内部坦白。