English(EN) Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

新 HUMANS 基准提供对大型音频模型的高效评估

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-04 04:00

研究人员开发了 HUMANS 基准，通过使用小型、精心策划的数据子集来高效评估大型音频模型 (LAM)。这些子集包含的示例少至 50 个，即可实现与完整基准分数超过 0.93 的相关性。值得注意的是，当用于训练回归模型时，这些选定的子集与人类偏好的相关性 (0.98) 高于在随机子集或整个基准上训练的模型，这表明数据策展的质量比数量对于预测用户满意度更重要。 AI

影响为评估音频模型提供了一种更高效、更准确的方法，可能加快开发和部署速度。

排序理由学术论文，介绍了一个用于评估大型音频模型的新基准。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Woody Haosheng Gan, William Held, Diyi Yang · 2026-05-04 04:00

将人类置于首位：通过人类偏好对齐实现高效 LAM 评估

arXiv:2605.00022v1 Announce Type: new Abstract: The rapid proliferation of large audio models (LAMs) demands efficient approaches for model comparison, yet comprehensive benchmarks are costly. To fill this gap, we investigate whether minimal subsets can reliably evaluate LAMs whi…

报道来源 [1]

将人类置于首位：通过人类偏好对齐实现高效 LAM 评估

相关实体

相关话题