研究人员推出了EMPATH,这是一个新的基准,旨在跨多种语言和对话轮次评估情感支持聊天机器人的安全性。与静态基准不同,EMPATH使用审计员模型模拟复杂的、多轮的危机对话,并根据五个维度上的19个指标对成绩单进行评分。在墨西哥西班牙语中的初步研究显示,许多指标的得分膨胀显著,并突出了模型性能的相当大的可变性,即使输入相同,也表明运行到运行的可靠性是每个模型关键的安全属性。该基准、其管道和相关数据正在发布以供更广泛地使用。 AI
影响 该基准可能导致更强大的对话式AI安全评估,特别是在敏感的情感支持应用中。
排序理由 该集群描述了一篇介绍用于AI安全评估的新颖基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →