NVIDIA 推出了 Gated DeltaNet-2,这是一种新的线性注意力层,旨在改进循环神经网络中的内存编辑。该模型使用独立的通道门控机制,将擦除旧信息和写入新信息的过程分离开来,解决了先前 delta-rule 架构中的局限性。Gated DeltaNet-2 在 1000 亿 token 和 13 亿参数上进行了训练,在长上下文检索任务上表现优于 Mamba-2 和 KDA 等现有模型。 AI
影响 增强了循环模型中的长上下文处理能力,有望提高复杂语言任务的性能。
排序理由 该集群描述了一种新的模型架构及其在基准测试上的性能,该模型在 arXiv 论文中有详细介绍,并被科技新闻媒体报道。
- Gated DeltaNet
- Gated DeltaNet-2
- Kimi Delta Attention
- Mamba-2
- Mamba-3
- Delta Rule
- Linear Attention
- NVIDIA
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →