研究人员开发了 NEST-V1,一个新颖的多模态框架,用于将口语尼泊尔语翻译成情感条件化手语头像。这项试点研究侧重于三种情感状态下的四个常用尼泊尔语单词,证明了生成富有表现力的手语头像的可行性。该系统利用共享声学编码器同时进行自动语音识别和情感分类,在保持适合边缘部署的参数效率的同时,实现了高精度。 AI
影响 为听障社区建立实时、富有情感表现力的手语通信系统的技术基础。
排序理由 详细介绍新多模态翻译框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →