PulseAugur
实时 06:41:19
English(EN) EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

新的EMPATH基准跨语言评估情感支持聊天机器人的安全性

研究人员推出了EMPATH,这是一个新的基准,旨在跨多种语言和对话轮次评估情感支持聊天机器人的安全性。与静态基准不同,EMPATH使用审计员模型模拟复杂的、多轮的危机对话,并根据五个维度上的19个指标对成绩单进行评分。在墨西哥西班牙语中的初步研究显示,许多指标的得分膨胀显著,并突出了模型性能的相当大的可变性,即使输入相同,也表明运行到运行的可靠性是每个模型关键的安全属性。该基准、其管道和相关数据正在发布以供更广泛地使用。 AI

影响 该基准可能导致更强大的对话式AI安全评估,特别是在敏感的情感支持应用中。

排序理由 该集群描述了一篇介绍用于AI安全评估的新颖基准的学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的EMPATH基准跨语言评估情感支持聊天机器人的安全性

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Camilo Chac\'on Sartori ·

    EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

    arXiv:2606.30256v1 Announce Type: new Abstract: Safety benchmarks often buy scalability by fixing the prompt, the language, and the turn structure. For emotional-support chatbots, that bargain hides precisely where safety failures emerge: across a multilingual, multi-turn crisis …

  2. arXiv cs.AI TIER_1 English(EN) · Camilo Chacón Sartori ·

    EMPATH: A Multilingual Auditor-Judge Benchmark for Safety Evaluation of Emotional-Support Chatbots

    Safety benchmarks often buy scalability by fixing the prompt, the language, and the turn structure. For emotional-support chatbots, that bargain hides precisely where safety failures emerge: across a multilingual, multi-turn crisis conversation. We present EMPATH, a benchmark for…