研究人员开发了一个名为ERTS(伦理鲁棒性测试系统)的新框架,用于评估AI系统在伦理情境下的对抗性鲁棒性。ERTS将伦理困境编码到一个22维空间中,并使用语义扰动函数来测试模型响应。该系统测量决策偏差并提供部署前评估结论。对包括Gemini 2.0 Flash和Llama 3.2在内的多个模型的评估显示,只有33%的模型通过了评估,其中Llama 3.2在公平性和信息退化攻击方面表现出特别的脆弱性。 AI
影响 这项研究引入了一种测试AI伦理鲁棒性的新方法,有望提高AI系统在关键应用中的安全性和可靠性。
排序理由 该集群描述了一篇详细介绍AI安全研究新框架的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →