研究人员推出了 Wan-Streamer v0.1,这是一种新颖的端到端多模态基础模型,专为实时、低延迟的视听交互而设计。与传统的级联系统不同,Wan-Streamer 在单一 Transformer 架构中集成了语言、音频和视频处理,并利用块因果注意力实现增量流式传输。这种统一的方法显著降低了管道延迟和错误累积,实现了亚秒级的双向视听通信,模型端响应延迟约为 200 毫秒。 AI
影响 实现了更自然、响应更快的实时视听 AI 交互,可能对虚拟助手和远程呈现产生影响。
排序理由 该集群描述了一篇介绍新颖多模态基础模型的研究论文。
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →