Hugging Face 发布了 EVA-Bench 数据 2.0,这是一个用于评估语音代理的扩展基准测试。新版本涵盖三个领域:航空公司客户服务管理、企业 IT 服务管理和医疗保健人力资源服务交付,包含 121 个工具中的 213 个场景。与最初发布相比,覆盖范围扩大了四倍。该基准测试已针对 OpenAI 的 GPT-5.4、Google 的 Gemini 3.1 Pro 和 Anthropic 的 Claude Opus 4.6 等领先模型进行了验证,确保了其严谨性和公平性。 AI
影响 为语音代理提供更全面的评估套件,推动前沿模型在各种企业场景中进行改进。
排序理由 该集群描述了一个用于评估 AI 模型的新型、扩展基准数据集的发布,包括其设计和范围的详细信息。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →