实体
AutoRound
AutoRound
PulseAugur coverage of AutoRound — every cluster mentioning AutoRound across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
1 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
Stateful Transformers 提升流式推理性能;Intel 发布 AutoRound 量化工具包
一篇新论文介绍了一种有状态的 Transformer 推理引擎,通过维护持久的 KV 缓存,显著加快了流式数据的处理速度。这种方法实现了与累积上下文大小无关的查询延迟,在市场数据基准测试中比现有引擎快了 5.9 倍。此外,Intel 发布了 AutoRound,一个用于 LLM 和 VLM 的先进量化工具包,可在超低比特宽度(2-4 位)下实现高精度和广泛的硬件兼容性,并与 vLLM 和 Transformers 等流行框架集成。
-
Hugging Face 推出用于高效 LLM 的先进量化技术
研究人员正在开发先进的量化技术,以提高大型语言模型 (LLM) 的效率。AutoRound、LATMiX 和 GSQ 等新方法旨在减小模型大小和计算需求,从而能够在功能较弱的硬件上进行部署。这些方法侧重于优化模型权重和激活在较低比特宽度下的表示方式,其中一些方法已达到与更高精度模型相当的准确性。创新包括用于训练后量化的新颖校准策略和用于提高鲁棒性的可学习仿射变换。