实体 positive backdoor

positive backdoor

PulseAugur coverage of positive backdoor — every cluster mentioning positive backdoor across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 2

发布 · 30天

90 天内 0

论文 · 30天

90 天内 2

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_63438 · May 27 · 15:15

AI研究人员提议用“秘密对齐”取代“正向后门”标签

一篇立场论文建议弃用AI中的“正向后门”一词，转而提倡使用“秘密对齐”。这个新术语强调，隐藏的行为（通常由特定输入触发）应默认被视为不安全，除非经过严格评估。该论文强调了这些触发器-行为映射的脆弱性，尤其是在保密性、完整性和可用性方面，并呼吁制定标准化的评估方法，以确保关于秘密对齐的可证明声明。
RESEARCH · CL_56218 · May 27 · 15:15

AI研究人员提议弃用“秘密对齐”的“正向后门”标签

一篇新的立场论文建议在AI/ML研究中弃用“正向后门”一词，转而使用“秘密对齐”来描述触发器激活的隐藏行为。该论文认为，除非有严格、标准化的评估支持，否则应怀疑基于秘密对齐的安全声明。作者们强调，开源LLM日益普遍，带来了新的安全漏洞，他们对现有“正向后门”提案的分析显示，其有效性和可靠性存在显著的脆弱性，尤其是在保密性、完整性和可用性方面。

AI研究人员提议用“秘密对齐”取代“正向后门”标签

AI研究人员提议弃用“秘密对齐”的“正向后门”标签