PulseAugur
实时 06:50:51
实体 HUMANS benchmark

HUMANS benchmark

PulseAugur coverage of HUMANS benchmark — every cluster mentioning HUMANS benchmark across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_14477 ·

    新 HUMANS 基准提供对大型音频模型的高效评估

    研究人员开发了 HUMANS 基准,通过使用小型、精心策划的数据子集来高效评估大型音频模型 (LAM)。这些子集包含的示例少至 50 个,即可实现与完整基准分数超过 0.93 的相关性。值得注意的是,当用于训练回归模型时,这些选定的子集与人类偏好的相关性 (0.98) 高于在随机子集或整个基准上训练的模型,这表明数据策展的质量比数量对于预测用户满意度更重要。