MiniMax 推出了新颖的注意力架构 MiniMax Sparse Attention (MSA),旨在处理高达 100 万 token 的上下文窗口。这种新方法重构了内存访问模式,以避免与长上下文相关的二次方复杂性,从而实现显著的加速和计算减少。据报道,MSA 的执行速度比以前的稀疏注意力方法快 4 倍,在完全上下文深度下,每个 token 的计算量减少到原来的 1/20,并声称是首个具有前沿编码、100 万上下文和原生多模态的开源模型。 AI
影响 使 AI 模型能够实现显著更长的上下文窗口,有可能提高需要广泛信息回忆的任务的性能。
排序理由 该集群描述了一种新的模型架构及其性能特征,作为一项研究开发成果发布。[lever_c_research降级:ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →