English(EN) Can Language Models Learn to Listen?

语言模型学会从语音生成面部反应

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-05 04:00

研究人员开发了一个框架，可以根据说话者的言语，为社交互动中的听者生成适当的面部反应。该方法将量化的面部姿态元素作为基于Transformer的大型语言模型的附加语言标记。使用预训练语言模型权重初始化Transformer比从头开始训练产生了更高质量的响应，展示了流畅且语义相关的生成运动。 AI

影响展示了LLM在多模态理解和生成方面的潜力，将其能力扩展到文本之外。

排序理由学术论文，详细介绍了LLM生成面部反应的新颖框架。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Evonne Ng, Sanjay Subramanian, Dan Klein, Angjoo Kanazawa, Trevor Darrell, Shiry Ginosar · 2026-06-05 04:00

语言模型能学会倾听吗？

arXiv:2308.10897v2 Announce Type: replace Abstract: We present a framework for generating appropriate facial responses from a listener in dyadic social interactions based on the speaker's words. Given an input transcription of the speaker's words with their timestamps, our approa…