PulseAugur
实时 08:36:42
English(EN) Search Your Block Floating Point Scales!

新的ScaleSearch方法通过优化量化提高了生成模型的效率

研究人员开发了一种名为ScaleSearch的新方法,通过量化来提高生成模型的效率。该技术优化了块浮点(BFP)格式中尺度因子的选择,将量化误差降低了高达27%。提出的ScaleSearchAttention算法与BFP集成,在因果语言建模中表现出接近零的性能损失,并在Qwen3-8B和Llama 3.1 70B等模型的准确性方面显示出显著的改进。 AI

影响 通过改进的量化优化生成模型推理,可能导致更快、更节省内存的AI应用。

排序理由 该集群包含一篇详细介绍用于优化AI模型推理的新颖技术方法的学术论文。

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新的ScaleSearch方法通过优化量化提高了生成模型的效率

报道来源 [2]

  1. arXiv cs.LG TIER_1 English(EN) · Chris De Sa ·

    搜索你的街区浮点数刻度!

    Quantization has emerged as a standard technique for accelerating inference for generative models by enabling faster low-precision computations and reduced memory transfers. Recently, GPU accelerators have added first-class support for microscaling Block Floating Point (BFP) form…

  2. Hugging Face Daily Papers TIER_1 English(EN) ·

    搜索你的街区浮点数刻度!

    Quantization has emerged as a standard technique for accelerating inference for generative models by enabling faster low-precision computations and reduced memory transfers. Recently, GPU accelerators have added first-class support for microscaling Block Floating Point (BFP) form…