English(EN) Aligning Audio Captions with Human Preferences

新的RLHF框架使音频字幕与人类偏好保持一致

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 04:00

研究人员开发了一个新的音频字幕框架，该框架利用人类反馈强化学习（RLHF）来更好地使生成的字幕与人类偏好保持一致。该方法采用在成对偏好数据上训练的奖励模型，允许其在不需要昂贵的真实标注的情况下微调现有的字幕系统。人类评估表明，与传统的监督方法相比，该方法生成的字幕更受青睐，尤其是在基线模型表现不佳的情况下，并且取得了与监督方法相当的性能。 AI

影响这项研究可能带来更自然、更准确的音频字幕系统，从而提高各种应用的可访问性和用户体验。

排序理由该集群包含一篇详细介绍音频字幕新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.LG 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.LG TIER_1 English(EN) · Kartik Hegde, Rehana Mahfuz, Yinyi Guo, Erik Visser · 2026-06-24 04:00

Aligning Audio Captions with Human Preferences

arXiv:2509.14659v3 Announce Type: replace-cross Abstract: Current audio captioning relies on supervised learning with paired audio-caption data, which is costly to curate and may not reflect human preferences in real-world scenarios. To address this, we propose a preference-align…

报道来源 [1]

Aligning Audio Captions with Human Preferences

相关实体

相关话题