研究人员推出了MaineCoon,一个拥有220亿参数的音视频自回归模型,专为实时社交互动而设计。该模型在单个GPU上可实现高达47.5 FPS的帧率,并支持带有代理推理框架的长时序生成。MaineCoon采用了新颖的训练技术,如自重采样和强化在线策略蒸馏,旨在为针对AI原生社交平台的低延迟、高质量音视频生成设定新标杆。 AI
影响 为实时音视频生成设定了新标杆,有望赋能下一代AI原生社交平台。
排序理由 该集群描述了一篇在arXiv上发布的新研究论文,详细介绍了一个新颖的音视频模型。
- alphaXiv
- arXiv
- CatalyzeX
- Connected Papers
- CORE Recommender
- DagsHub
- Gotit.pub
- Hugging Face
- Litmaps
- ScienceCast
- scite Smart Citations
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →