一种名为 Subquadratic Sparse Attention (SSA) 的新注意力机制已被开发出来,为长上下文检索和推理提供了线性扩展的解决方案。这项创新有望带来显著的速度提升,在 100 万个 token 时报告了 52.2 倍的预填充速度提升,旨在解决当前 LLM 在上下文碎片化和低效注意力机制方面的局限性。这一发展预示着行业可能发生转变,挑战了海量计算是先进 AI 能力主要障碍的观念。 AI
影响 这种新的注意力机制可以降低长上下文任务的推理成本并提高性能,有可能改变 LLM 提供商的竞争格局。
排序理由 该集群描述了一种针对 LLM 注意力机制的新技术方法,并报告了基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →