PulseAugur
实时 10:50:08
English(EN) Can Language Models Learn to Listen?

语言模型学会从语音生成面部反应

研究人员开发了一个框架,可以根据说话者的言语,为社交互动中的听者生成适当的面部反应。该方法将量化的面部姿态元素作为基于Transformer的大型语言模型的附加语言标记。使用预训练语言模型权重初始化Transformer比从头开始训练产生了更高质量的响应,展示了流畅且语义相关的生成运动。 AI

影响 展示了LLM在多模态理解和生成方面的潜力,将其能力扩展到文本之外。

排序理由 学术论文,详细介绍了LLM生成面部反应的新颖框架。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Evonne Ng, Sanjay Subramanian, Dan Klein, Angjoo Kanazawa, Trevor Darrell, Shiry Ginosar ·

    语言模型能学会倾听吗?

    arXiv:2308.10897v2 Announce Type: replace Abstract: We present a framework for generating appropriate facial responses from a listener in dyadic social interactions based on the speaker's words. Given an input transcription of the speaker's words with their timestamps, our approa…