实体
7b
7b
PulseAugur coverage of 7b — every cluster mentioning 7b across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
LLM 推理速度受 GPU 内存带宽而非计算能力限制
本文解释说,生产环境中 LLM 推理的主要瓶颈通常是模型在 GPU 上的原始速度,而不是服务逻辑或网络开销。文章详细介绍了 LLM 推理,尤其是在解码阶段,由于模型权重大且需要流式传输数据,因此受到内存带宽的严重限制。文章强调量化(如 INT8)是一种非常有效的优化技术,它在质量损失最小的情况下减小了内存占用并提高了带宽效率。
-
腾讯发布 Hy-MT2 翻译模型以供本地部署
腾讯发布了 Hy-MT2,这是其翻译模型的新版本,提供 1.8B 和 7B 参数大小。这个开源模型专为本地部署而设计,测试探索了缓存量化的影响。此次发布旨在通过易于访问的设备端模型来提高翻译能力。