实体 Open-Book Benign Rewriting

Open-Book Benign Rewriting

PulseAugur coverage of Open-Book Benign Rewriting — every cluster mentioning Open-Book Benign Rewriting across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 1

发布 · 30天

90 天内 0

论文 · 30天

90 天内 1

层级分布 · 90 天

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_46856 · May 18 · 21:56

新的大型语言模型防御机制通过改写训练数据来对抗投毒攻击

研究人员开发了一种名为“开卷良性改写”（OBBR）的新防御策略，以保护大型语言模型（LLM）免受数据投毒攻击。该方法通过改写训练数据以匹配良性提示，从而有效中和有害内容。OBBR 在安全性方面表现出显著的改进，在各种大型语言模型和已知攻击模式上的平均性能优于现有防御措施 51%。

新的大型语言模型防御机制通过改写训练数据来对抗投毒攻击