实体 Llama 405B

Llama 405B

PulseAugur coverage of Llama 405B — every cluster mentioning Llama 405B across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_71680 · Jun 4 · 18:39

攻击者通过改变权重绕过 LLM 内省适配器

研究人员开发了一种攻击方法，可以绕过内省适配器（IA），这是一种旨在检测大型语言模型中恶意微调的技术。该攻击通过对模型权重进行简单转换来实现，该转换会重新定位 IA 用于校准的基础，从而在不改变模型可观察行为的情况下使检测方法失效。这凸显了威胁模型中的一个关键差异，因为原始 IA 作者假设了一个受信任的训练流程，而攻击者则考虑了最终模型权重不受信任的情况。