实体 EVA-Bench

EVA-Bench

PulseAugur coverage of EVA-Bench — every cluster mentioning EVA-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 2

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

主题

时间线

2026-05-13 research_milestone Researchers released EVA-Bench, a new end-to-end framework for evaluating voice agents. 来源

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 2 条

TOOL · CL_71082 · Jun 4 · 12:24

Hugging Face 扩展语音代理基准测试，包含 3 个领域、121 个工具

Hugging Face 发布了 EVA-Bench 数据 2.0，这是一个用于评估语音代理的扩展基准测试。新版本涵盖三个领域：航空公司客户服务管理、企业 IT 服务管理和医疗保健人力资源服务交付，包含 121 个工具中的 213 个场景。与最初发布相比，覆盖范围扩大了四倍。该基准测试已针对 OpenAI 的 GPT-5.4、Google 的 Gemini 3.1 Pro 和 Anthropic 的 Claude Opus 4.6 等…
TOOL · CL_30709 · May 13 · 17:58

新的EVA-Bench框架评估语音代理性能

研究人员推出EVA-Bench，一个旨在全面评估语音代理的新框架。该系统通过生成逼真的模拟对话并衡量语音特定故障模式的质量来应对关键挑战。EVA-Bench 包含任务完成度、音频保真度和对话体验的指标，能够进行跨架构比较。该框架包括众多场景、口音和噪声的鲁棒性测试，并提供系统性能变化的洞察。