研究人员开发了 HUMANS 基准,通过使用小型、精心策划的数据子集来高效评估大型音频模型 (LAM)。这些子集包含的示例少至 50 个,即可实现与完整基准分数超过 0.93 的相关性。值得注意的是,当用于训练回归模型时,这些选定的子集与人类偏好的相关性 (0.98) 高于在随机子集或整个基准上训练的模型,这表明数据策展的质量比数量对于预测用户满意度更重要。 AI
影响 为评估音频模型提供了一种更高效、更准确的方法,可能加快开发和部署速度。
排序理由 学术论文,介绍了一个用于评估大型音频模型的新基准。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →