研究人员开发了SemConFlow,一种新颖的协同说话手势生成方法,旨在产生更整体、语义更强的姿态。与依赖外部语义规则的先前方法不同,SemConFlow使用对比流匹配,并将不匹配的音频-文本条件作为负例。该技术训练模型遵循正确的运动轨迹,同时排斥语义不一致的轨迹,从而学会生成标志性和隐喻性手势。该模型还通过将文本、音频和运动嵌入到复合潜在空间中来确保跨模态一致性,在BEAT2和SHOW数据集上的表现优于现有方法。 AI
影响 增强了AI在多模态应用中生成更自然、更具上下文相关性的人类手势的能力。
排序理由 该集群包含一篇详细介绍协同说话手势生成新模型和方法的论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →