English(EN) EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

新的EMPATH基准跨语言评估情感支持聊天机器人的安全性

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-29 13:05

研究人员推出了EMPATH，这是一个新的基准，旨在跨多种语言和对话轮次评估情感支持聊天机器人的安全性。与静态基准不同，EMPATH使用审计员模型模拟复杂的、多轮的危机对话，并根据五个维度上的19个指标对成绩单进行评分。在墨西哥西班牙语中的初步研究显示，许多指标的得分膨胀显著，并突出了模型性能的相当大的可变性，即使输入相同，也表明运行到运行的可靠性是每个模型关键的安全属性。该基准、其管道和相关数据正在发布以供更广泛地使用。 AI

影响该基准可能导致更强大的对话式AI安全评估，特别是在敏感的情感支持应用中。

排序理由该集群描述了一篇介绍用于AI安全评估的新颖基准的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.AI TIER_1 English(EN) · Camilo Chac\'on Sartori · 2026-06-30 04:00

EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

arXiv:2606.30256v1 Announce Type: new Abstract: Safety benchmarks often buy scalability by fixing the prompt, the language, and the turn structure. For emotional-support chatbots, that bargain hides precisely where safety failures emerge: across a multilingual, multi-turn crisis …
arXiv cs.AI TIER_1 English(EN) · Camilo Chacón Sartori · 2026-06-29 13:05

EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

Safety benchmarks often buy scalability by fixing the prompt, the language, and the turn structure. For emotional-support chatbots, that bargain hides precisely where safety failures emerge: across a multilingual, multi-turn crisis conversation. We present EMPATH, a benchmark for…

报道来源 [2]

EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

相关实体

相关话题