实体 Concept Ablation Fine-Tuning

Concept Ablation Fine-Tuning

PulseAugur coverage of Concept Ablation Fine-Tuning — every cluster mentioning Concept Ablation Fine-Tuning across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_79199 · Jun 6 · 03:41

新方法利用共享机制解决大语言模型后门攻击

研究人员开发了新的方法来对抗大语言模型（LLMs）中的后门攻击。一种方法是嵌入一个“虚拟后门”，通过在已知后门模式上对模型进行微调来帮助移除未知的恶意触发器。另一种方法识别各种后门类型之间共享的潜在机制，从而通过概念消融微调（CAFT）等技术实现统一的检测和缓解。这些方法旨在通过降低这些隐藏攻击的成功率同时保持模型的效用，来提高大语言模型的安全性和可靠性。

新方法利用共享机制解决大语言模型后门攻击