实体 HUMANS benchmark

HUMANS benchmark

PulseAugur coverage of HUMANS benchmark — every cluster mentioning HUMANS benchmark across labs, papers, and developer communities, ranked by signal.

总计 · 30天

0

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_14477 · May 4 · 04:00

新 HUMANS 基准提供对大型音频模型的高效评估

研究人员开发了 HUMANS 基准，通过使用小型、精心策划的数据子集来高效评估大型音频模型 (LAM)。这些子集包含的示例少至 50 个，即可实现与完整基准分数超过 0.93 的相关性。值得注意的是，当用于训练回归模型时，这些选定的子集与人类偏好的相关性 (0.98) 高于在随机子集或整个基准上训练的模型，这表明数据策展的质量比数量对于预测用户满意度更重要。