NVIDIA 推出了 Nemotron-Labs-TwoTower,这是一款开放权重的扩散语言模型,旨在提高文本生成吞吐量。该模型将上下文表示和令牌去噪的任务分离到两个独立的“塔”中。通过采用这种架构,Nemotron-Labs-TwoTower 在保持自回归模型近 99% 的质量的同时,实现了超过 2.4 倍的生成速度。 AI
影响 这种新颖的架构可以显著加速大型语言模型的推理,有可能降低成本并实现新的实时应用程序。
排序理由 前沿实验室模型发布,带有系统卡 [lever_c_demoted from frontier_release: ic=2 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →