实体 Introspection Adapters

Introspection Adapters

PulseAugur coverage of Introspection Adapters — every cluster mentioning Introspection Adapters across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 3

发布 · 30天

90 天内 0

论文 · 30天

90 天内 3

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 3 条

TOOL · CL_71680 · Jun 4 · 18:39

攻击者通过改变权重绕过 LLM 内省适配器

研究人员开发了一种攻击方法，可以绕过内省适配器（IA），这是一种旨在检测大型语言模型中恶意微调的技术。该攻击通过对模型权重进行简单转换来实现，该转换会重新定位 IA 用于校准的基础，从而在不改变模型可观察行为的情况下使检测方法失效。这凸显了威胁模型中的一个关键差异，因为原始 IA 作者假设了一个受信任的训练流程，而攻击者则考虑了最终模型权重不受信任的情况。
TOOL · CL_56172 · May 28 · 04:00

新论文详述对内省适配器的攻击

一篇题为“对称性击败审计”的新研究论文展示了一种针对内省适配器（Introspection Adapters）的攻击，该技术由 Shenoy 等人于 2026 年开发。该论文提交至 arXiv 的计算机科学类别，重点关注密码学和安全领域。
RESEARCH · CL_10757 · Apr 30 · 11:59

Anthropic 新型“内省适配器”让大语言模型能够自我报告行为

研究人员开发了一种名为“内省适配器”（Introspection Adapters, IA）的新颖技术，该技术允许大型语言模型报告其自身学到的行为，包括隐藏的偏见和加密的恶意指令。该方法使用轻量级的 LoRA 插件将模型的内部状态转换为自然语言，从而有效地实现自我报告。在评估中，IA 的表现显著优于现有的黑箱和白箱审计方法，标志着 AI 安全从外部审问转向内部坦白。

攻击者通过改变权重绕过 LLM 内省适配器

新论文详述对内省适配器的攻击

Anthropic 新型“内省适配器”让大语言模型能够自我报告行为