实体 ggml-org

ggml-org

PulseAugur coverage of ggml-org — every cluster mentioning ggml-org across labs, papers, and developer communities, ranked by signal.

总计 · 30天

7

90 天内 10

发布 · 30天

0

90 天内 0

论文 · 30天

0

90 天内 0

层级分布 · 90 天

research 1
tool 8
commentary 1

主题

情绪 · 30 天

5 天有情绪数据

最近 · 第 1/1 页 · 共 10 条

TOOL · CL_140967 · Jul 14 · 02:46

llama.cpp 为腾讯 Hy3 模型添加了 MTP 推测解码支持

llama.cpp 项目已集成对腾讯 Hy3 模型（也称为 hy_v3）的支持。此次更新包括 MTP 推测解码的实现，该技术允许进行多令牌预测。Hy3 模型是一个拥有 2990 亿参数的大型混合专家模型，包含 80 层以及一个额外的 MTP 层。
TOOL · CL_135696 · Jul 10 · 04:38

llama.cpp 添加 ET backend 以实现开源硬件集成

llama.cpp 项目引入了一个名为 ggml-et 的新后端，旨在支持 ET-SOC-1 处理器。此次集成旨在将开源硬件纳入更广泛的开源推理生态系统。虽然 ET 处理器的绝对性能可能无法与现代 CPU 相媲美，但它提供了更高的每瓦性能。开发工作包括大量的内核添加和优化，例如支持各种数学运算、性能日志记录和矢量计算，并提供了构建和运行后端的示例。
TOOL · CL_127771 · Jul 6 · 13:28

llama.cpp 通过 UE4M3 LUT 为 ARM 添加 NVFP4 点积优化

llama.cpp 项目的一个拉取请求通过将 UE4M3 查找表 (LUT) 扩展到 NVFP4 点积实现，为 ARM 处理器引入了一项优化。此更改使 ARM 版本与现有的 x86 优化保持一致，并利用了共享的 LUT 基础设施。基准测试显示性能显著提升，在一个使用 4 个线程的 Qwen3.5-4B-NVFP4 模型上的测试用例中，速度从每秒 1.89 个 token 提高到每秒 9.97 个 token。
TOOL · CL_127312 · Jul 6 · 07:30

llama.cpp 为 HIP 构建添加 -ffast-math 标志，提升性能

llama.cpp 项目的一个拉取请求引入了 ggml-hip 库，为 HIP 构建启用了 -ffast-math 编译器标志。在 RDNA3.5 GPU 上的基准测试显示，使用此标志时，Qwen3.5-27B 模型的性能提升高达 7%，Qwen3-0.6B 模型的性能提升高达 3.4%。在各种提示长度下都观察到了性能提升，在较短的提示长度下观察到了最显著的改进。
TOOL · CL_103494 · Jun 22 · 08:31

llama.cpp 通过新的拉取请求添加了多层 MTP 支持

一个拉取请求已提交至 llama.cpp 项目，以添加对 Step3.5/3.7 flash MTP3 的支持。此更新建立在先前工作的基础上，并引入了多层 MTP 支持，鼓励用户在最新版本的 llama.cpp 中进行尝试。
COMMENTARY · CL_95028 · Jun 16 · 16:04

Georgi Gerganov 称赞 Qwen3.6-27B 适用于本地编码任务

Georgi Gerganov 发现 Qwen3.6-27B 模型在本地编码任务方面非常有效，他每天都在 ggml-org 使用它进行日常维护工作。他主要在 Apple M2 Ultra 或 RTX 5090 上运行该模型，并使用带有自定义系统提示的 Pi Agent 的精简版本。Gerganov 的认可凸显了本地模型在实际日常应用中日益增长的能力。
TOOL · CL_89519 · Jun 13 · 17:52

Cohere Labs 发布 North Mini Code 用于代码生成

Cohere 发布了 North Mini Code，一个拥有 300 亿参数、针对代码生成和代理软件工程任务进行了优化的模型。这个开放权重研究模型由 Cohere 和 Cohere Labs 开发，拥有 30 亿参数的激活大小，并支持高达 256K 的上下文长度。该模型在 Apache 2.0 许可下可用，向 llama.cpp 的拉取请求表明社区正在努力将其集成。
RESEARCH · CL_76137 · Jun 7 · 12:53

llama.cpp 集成 Gemma 4 MTP 以提高本地模型性能

llama.cpp 项目已合并对 Gemma 4 MTP 的支持，这项功能提高了本地大型语言模型的速度和效率。此次集成允许用户利用 Gemma 4 和量化感知训练 (QAT) 以及 MTP 来实现更快的设置。此次更新预计将显著提高个人 Gemma 模型的性能。
TOOL · CL_66427 · Jun 2 · 09:24

llama.cpp 添加对 Step3.7-Flash 模型的支持

向 llama.cpp 存储库提交了一个拉取请求，为 Step3.7-Flash 模型添加支持。此集成旨在实现该特定 AI 模型在本地的执行。该请求还提到了 Step-3.5-Flash 支持的进行中工作，并询问了未来的 MTP 支持。
TOOL · CL_03576 · Apr 25 · 14:22

llama.cpp CUDA pull request 优化 MoE 模型的 MMQ stream-k 开销

llama.cpp 项目的一个 pull request 旨在减少 CUDA 的 MMQ stream-k 操作中的开销。此优化针对专家混合（MoE）模型，可能导致更快的提示处理速度。这些更改是改善本地大型语言模型推理性能的持续努力的一部分。