研究人员开发了 ThriftAttention,一种提高 AI 模型长上下文注意力机制效率的新方法。该技术选择性地对关键的查询-键交互使用更高精度(FP16),而将大部分计算以更低、更高效的精度(FP4)执行。通过仅将 FP16 精度集中在约 5% 最重要的块上,ThriftAttention 显著减少了在长上下文场景中低比特精度通常会导致的质量下降,与完整的 FP16 相比,恢复了近 90% 的性能差距。 AI
影响 提高了长上下文 AI 模型的效率,可能降低推理成本,并使具有广泛内存的模型得到更广泛的应用。
排序理由 该集群包含一篇详细介绍提高 AI 模型效率新方法的学术论文。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →