研究人员开发了LiSA(Lifelong Safety Adaptation,终身安全适应)新框架,旨在通过从稀疏且嘈杂的失败数据中学习来改进AI护栏。LiSA使用结构化记忆从个体事件中进行泛化,结合了用于混合标签上下文的冲突感知规则,并采用证据感知置信门控。这种方法在PrivacyLens+和AgentHarm等基准测试中,即使在存在显著标签噪声的情况下,也始终优于现有的基于记忆的方法,为保护AI代理免受不可预测的现实世界风险提供了实用的解决方案。 AI
影响 通过使护栏能够以有限的反馈适应现实世界风险来增强AI安全性。
排序理由 发布了一篇详细介绍新AI安全框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →