English(EN) Introducing the Red-Teaming Resistance Leaderboard

Hugging Face推出AI安全红队对抗排行榜

作者 PulseAugur 编辑部 · [1 个来源] · 2024-02-23 00:00

Hugging Face推出了一项新的排行榜，用于跟踪AI模型在抵抗对抗性攻击方面的表现。该倡议旨在通过提供一个公开平台来评估和比较模型在红队对抗工作中的鲁棒性，从而促进AI安全研究。该排行榜将重点展示在提示注入和其他操纵技术方面表现出更强防御能力的模型，鼓励开发更安全的AI系统。 AI

排序理由推出新的AI安全研究和模型评估排行榜。

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]