研究人员开发了SyncDPO,一个旨在改进视频-音频联合生成模型中时间同步的新训练后框架。该方法利用直接偏好优化(DPO)来增强音频事件与其视觉对应物之间的对齐,解决了传统监督微调的局限性。SyncDPO引入了高效的、即时的负样本构建策略,无需大量采样即可创建偏好对,并采用课程学习方法逐步增加时间错位的难度。 AI
影响 增强了视频-音频生成中的时间对齐,可能提高了多媒体AI应用中的真实感和用户体验。
排序理由 发布了一篇详细介绍AI模型训练新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →