研究人员推出了 HunyuanImage 3.0,这是一款新的多模态模型,在一个自回归框架内集成了图像理解和生成。该模型采用混合专家(Mixture-of-Experts)架构,拥有超过 800 亿个参数,在推理时每个 token 激活 130 亿个参数,使其成为目前最大的开源图像生成模型之一。技术报告详细介绍了数据整理、架构设计和训练方法方面的进展,证明 HunyuanImage 3.0 在文本-图像对齐和视觉质量方面可与当前最先进的模型相媲美。发布其代码和权重旨在促进多模态人工智能生态系统中的社区探索和发展。 AI
影响 为开源多模态模型树立了新的标杆,有望加速图像生成和理解领域的研究与开发。
排序理由 该集群描述了一份技术报告,详细介绍了在 arXiv 上发布的新多模态模型,包括其架构和性能。[lever_c_demoted from research: ic=1 ai=1.0]
- alphaXiv
- arXiv
- CatalyzeX
- Chain-of-Thoughts
- DagsHub
- Gotit.pub
- Hugging Face
- HunyuanImage 3.0
- mixture of experts
- ScienceCast
- Zijian Zhang
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →