实体 LLaMA-2 70B

LLaMA-2 70B

PulseAugur coverage of LLaMA-2 70B — every cluster mentioning LLaMA-2 70B across labs, papers, and developer communities, ranked by signal.

总计 · 30天

6

90 天内 6

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 2

层级分布 · 90 天

significant 1
tool 4
commentary 1

主题

最近 · 第 1/1 页 · 共 6 条

TOOL · CL_69678 · Jun 3 · 21:33

AirLLM 使 70B LLM 运行在 4GB 显存上；DPO 增强开源模型

AirLLM 取得了重大突破，使得 700 亿参数的大型语言模型（LLM）能够仅用 4GB 显存的单 GPU 运行，这在以前是需要更多内存才能实现的壮举。这一发展使得强大的开源模型能够为本地使用提供更广泛的访问。此外，文章强调了直接偏好优化（DPO）作为一种通用且高效的方法，可用于标准聊天机器人应用之外的模型微调，并介绍了 Supermemory 作为 AI 应用的可扩展内存引擎。
TOOL · CL_63966 · Jun 1 · 15:00

通过更智能的模型使用将AI基础设施成本削减94%

一位工程师详细介绍了他们的团队如何通过实施新的架构方法，将AI基础设施成本大幅降低94%，每年节省53万美元。确定的核心问题包括：将大型前沿模型用于简单任务的过度使用、重复查询缺乏缓存策略以及缺乏将请求路由到适当大小模型的路由逻辑。他们的解决方案涉及一个四层优化堆栈，旨在使效率成为首要考虑因素。
TOOL · CL_60653 · May 30 · 05:13

LLaMA-2 70B 内存算术详解

本文深入探讨了 LLaMA-2 70B 的内存算术，具体详细介绍了其拥有 64 个查询头和 8 个 KV 头的架构。旨在提供对分组查询注意力（Grouped Query Attention）标准解释中常被忽视的计算方面的更深层次理解。
COMMENTARY · CL_42826 · May 21 · 16:30

4 位量化是本地 LLM 的实用最佳选择

对于大多数在本地运行大型语言模型（LLM）的用户来说，4 位量化在性能和质量之间提供了实用的平衡，与 8 位相比显著降低了 VRAM 需求。虽然 4 位模型在复杂任务上的推理能力可能略有下降，但在文本生成和指令遵循方面几乎没有变化。这种方法对于在消费级硬件上进行交互式聊天和典型生产工作负载尤其有利，能够加快推理速度，并使在性能较低的 GPU 上也能运行更大的模型。
SIGNIFICANT · CL_44363 · Apr 24 · 00:00

Together AI 借助 NVIDIA Blackwell 将 AI 训练速度提升 90%

Together AI 推出了采用 NVIDIA Blackwell 平台的新 GPU 集群，显著加快了 AI 训练和推理速度。这些集群由 Together Kernel Collection 提供支持，与之前的 NVIDIA H100 硬件相比，训练速度最高可提高 90%，处理大型模型的速度超过每秒 15,000 个 token。Salesforce 和 Zoom 等早期客户已报告了显著的性能提升，其中一些客户的训练速度翻倍。Tog…
RESEARCH · CL_02067 · Dec 9 · 23:30

Mistral AI的Mixtral模型引发了创新和采用的热潮

Mistral AI发布了Mixtral 8x7B，一个稀疏专家混合（SMoE）大型语言模型。该模型表现强劲，在许多基准测试中超越了Llama 2 70B，同时在推理过程中使用的计算量显著减少。该模型可在Apache 2.0许可下使用，允许商业用途。