GLM-5 · PulseAugur

AI 自进化可能始于外部系统，而非模型权重

前 OpenAI 安全副总裁 Wonyong Li 提出了一条 AI 自进化的新路径，建议从外部操作系统（Harness）开始，而不是直接修改模型权重。该 Harness 系统负责管理工具使用、上下文、任务拆分和结果验证，并可根据观察到的失败进行迭代改进。DeepSeek 的崔天言等研究人员认为，改进 Harness 是 AI 进步的一个有前景的方向，有可能在不改变核心模型的情况下实现显著的性能提升。

TOOL · CL_130918 · Jul 7 · 19:06

GLM-5.2 在 8x B200 GPU 上的部署倾向于使用 NVFP4 以获得最佳吞吐量

一项技术分析显示，在 8x NVIDIA B200 GPU 上部署 GLM-5.2 模型，使用四个 GPU 上的 NVFP4 精度比使用所有八个 GPU 上的 FP8 精度更有效。该配置的 FP8 设置模型权重约占 459 GB，并为 KV 缓存留有充足空间，吞吐量几乎是 FP8 设置的两倍。分析表明，对于中等并发，模型的性能受内存带宽限制，因此 NVFP4 是最大化每秒每美元代币的更有效选择。

TOOL · CL_126365 · Jul 5 · 14:19

NVIDIA GLM-5.2-NVFP4 支持在消费级硬件上本地运行AI；Hermes代理指南已更新

NVIDIA的GLM-5.2-NVFP4，一个4位FP4量化模型，支持在消费级硬件上运行大型GLM-5模型，标志着本地AI计算的重大进步，并使开发人员更容易获得先进的文本生成能力。另外，Nous Research更新了其Hermes代理斜杠命令指南，详细介绍了截至2026年4月7日的官方命令，以帮助用户掌握该AI代理的功能。

RESEARCH · CL_113514 · Jun 27 · 13:01

中国AI模型DeepSeek、GLM、Kimi在开发者任务中挑战GPT-4o

对领先的中国AI模型的比较分析显示，DeepSeek V4 Pro和GLM-5在代码生成和调试等开发者任务上，性能可与GPT-4o媲美。DeepSeek V4 Pro在Python代码生成和SQL优化方面表现出色，而GLM-5在技术文档方面表现更优。Kimi K2.6凭借其超长的上下文窗口，在数据分析任务中显示出优势。研究还强调，这些中国模型比GPT-4o更具成本效益，并有可能无缝集成到现有的OpenAI应用中。

TOOL · CL_105335 · Jun 23 · 07:53

Prime Intellect 发布用于训练万亿参数 MoE 模型的开放框架

Prime Intellect 推出了 prime-rl 0.6.0，一个用于使用 agentic 强化学习训练大型专家混合 (MoE) 模型的开放框架。该新系统成功在软件工程任务上训练了 GLM-5 模型，仅使用 28 个 H200 GPU 实现了 131k 的序列长度。

RESEARCH · CL_97275 · Jun 17 · 19:59

中国AI实验室发布强大开源模型，挑战美国前沿AI

中国的AI实验室正在迅速推进其开源模型，其中Z.ai的GLM-5.2在基准测试中取得了令人印象深刻的分数，并拥有百万级上下文窗口，以极低的成本就能媲美Opus 4.8和GPT-5.5等顶级闭源模型。DeepSeek-V4也被强调为一款强大的、成本效益高的开源模型，已用于大量实际工作。这种快速的迭代周期，在短短几个月内就实现了多次重大改进，表明开源和闭源前沿模型之间的差距正在迅速缩小，这可能会影响美国AI公司的收入预测。

COMMENTARY · CL_94785 · Jun 16 · 13:44

AI模型：训练后技巧与未来趋势探讨

新一期播客节目中，Nathan Lambert和Finbarr Timbers讨论了AI模型训练后技术的最新进展。对话涵盖了行业向多教师策略内蒸馏的转变、Olmo风格技巧的应用，以及训练后技术对大规模AI工作的广泛影响。节目还涉及快速发展的AI领域内的职业建议，回顾了GLM 5.1、Kimi K2.6、DeepSeek V4、Xiaomi MiMo V2.5和Nemotron Ultra等模型。

COMMENTARY · CL_94739 · Jun 16 · 13:29

LLM 模型训练后食谱通过新的蒸馏技术不断发展

对大型语言模型训练后食谱的回顾显示，过去一年取得了显著的进展。历史上，模型遵循监督微调（SFT）、奖励建模和强化学习（RL）的流程。然而，2024 年的最新进展以及对 2025-2026 年的预测表明，正朝着更复杂、多阶段的流程转变。这些流程包括直接偏好优化（DPO）和来自人工智能反馈的强化学习（RLAIF），以及面向前沿模型的、值得注意的多教师策略内蒸馏（MOPD）的出现。

COMMENTARY · CL_94706 · Jun 16 · 13:24

LLM基准未能捕捉到代理式AI的关键工具使用差距

公开的LLM基准测试通常无法反映真实世界的性能，特别是对于依赖工具使用的代理式系统。在MMLU等静态基准测试中表现出色的模型，在集成到需要代码生成、网络搜索或文件执行的流程中时，可能会表现不佳。代理式AI的关键区别在于工具调用可靠性和多步规划保真度，而这些指标在标准排行榜中基本缺失。建议开发者使用自己的工具模式和生产日志进行定制化评估，以准确评估模型在代理式应用中的适用性。

RESEARCH · CL_88575 · Jun 13 · 04:01

oMLX 通过 KV 缓存提升 Apple Silicon LLM 性能

oMLX 是一个面向 Apple Silicon 的开源 LLM 推理服务器，在处理大型模型和复杂工作流方面展现出显著的性能提升。社区基准测试和本地测试突显了 oMLX 相较于 Ollama 和 LM Studio 等替代方案的优势，尤其是在涉及编码代理和持久化 KV 缓存的场景中。该服务器利用 SSD 进行 KV 缓存的能力极大地缩短了首次令牌生成时间 (TTFT)，使得 Claude Code 和 Qwen3-Coder-Next…

TOOL · CL_94930 · Jun 12 · 11:43

WeiboAI 发布 VibeThinker-3B 以应对高级推理任务

WeiboAI 发布了 VibeThinker-3B，这是一个拥有30亿参数的模型，专为数学、编码和STEM等具有挑战性的推理任务而设计。该模型采用了优化的训练后流程，在AIME、HMMT和LeetCode竞赛等基准测试中取得了与领先前沿模型相当的性能。开发者提出了参数压缩覆盖假设，认为可验证的推理依赖于多步推理和自我纠正等参数密集型能力。

TOOL · CL_86748 · Jun 12 · 04:00

新的GeoNatureAgent基准测试LLM代理在环境地理空间任务中的表现

一个新的基准测试GeoNatureAgent已经发布，用于评估AI代理在使用真实API进行环境地理空间分析方面的性能。该基准测试包含93个跨越不同类别的任务，例如空间推理和错误处理，并使用了可自托管的API，包含西班牙和葡萄牙的环境指标。对七个LLM的初步评估显示，Claude Sonnet 4表现最佳，但DeepSeek V3.2等开源模型提供了更具成本效益的替代方案，以较低的成本实现了Claude相当一部分的能力。研究还强调，比较…

TOOL · CL_79558 · Jun 8 · 13:50

Self-Harness 使 LLM 代理能够改进其自身的操作工具集

研究人员开发了一种名为 Self-Harness 的新颖方法，使基于 LLM 的代理能够自主改进其自身的操作工具集。这个迭代过程包括识别模型特定的失败模式、生成有针对性的工具集修改以及通过回归测试验证这些更改。当应用于 Terminal-Bench-2.0 基准测试中的三个不同基础模型时，Self-Harness 显著提升了性能，展示了通往自优化 AI 代理的道路。

TOOL · CL_75725 · Jun 7 · 05:31

中国LLM为高性能管道提供80%的成本节省

一份指南详细介绍了如何通过利用中国AI模型来构建具有成本效益的LLM管道，这些模型以远低于西方替代品的价格提供具有竞争力的性能。该设置包括一个统一的API密钥，一个OpenAI兼容的SDK以便于集成，以及通过USDT支付，无需中国金融账户。DeepSeek V4、Qwen 3.7 Max和GLM-5.1等模型因其性能和成本节省而受到关注，与GPT-4o等模型相比，潜在节省高达80%。

RESEARCH · CL_73373 · Jun 5 · 10:53

编码能力推动AI模型估值超越其他指标

大语言模型的估值逻辑日益围绕编码能力展开，在编码方面表现出色的公司获得了显著的财务收益和市场主导地位。Anthropic凭借其Claude Code产品尤其一枝独秀，推动了可观的年经常性收入增长和创纪录的估值。这一转变表明，强大的编码执行能力正成为LLM成功的首要驱动力，盖过了参数量或多模态功能等其他指标，并成为主要AI参与者的核心焦点。

TOOL · CL_68792 · Jun 3 · 12:09

AI API 价格大幅下调 inclusionAI 的 Ring-2.6-1T 模型

inclusionAI 已大幅降低其 Ring-2.6-1T 模型的定价，将提示和完成价格均下调了 75%。这一变化为使用该模型进行大批量推理的团队提供了可观的成本节省。此外，Z.ai 略微降低了其 GLM 5 模型的完成价格，而 OpenRouter 则添加了 Fusion 作为免费的实验模型。

TOOL · CL_58686 · May 29 · 04:00

新的 SCDBench 基准测试揭示 LLM 在智能合约反编译方面存在困难

引入了一个名为 SCDBench 的新基准测试，用于评估用于智能合约反编译的大型语言模型 (LLM)。该基准测试包含一个包含 600 个真实 Solidity 合约的数据集，并配有字节码、真实源代码和语义检查点。当前的尖端 LLM，如 Claude Opus 4.7 和 GPT-5.3-Codex，在生成结构化和可编译代码方面显示出潜力，但在语义一致性方面存在困难，最好的模型也只能完美反编译 42 个合约。研究还发现，纳入编译修复可以…

TOOL · CL_57927 · May 28 · 21:25

开源大模型演进：注意力机制、多模态和效率提升

近几个月来，开源大模型领域发生了重大变化，滑动窗口注意力机制已成为主流，支持更大的上下文窗口。QK-Norm 也因其作为训练稳定器的作用而受到关注，其根源可追溯至 Gemini 3 的架构。Kimi k2.5 中早期出现的多模态预训练，已被证明有利于推理，而 Z.ai 的 GLM-5，尽管经过修改，但性能可与顶级闭源模型相媲美。Step 3.5 Flash 在推理速度和多令牌预测方面表现突出，尽管基准测试性能并不总是与用户偏好一致。

SIGNIFICANT · CL_54182 · May 27 · 07:02

中国大模型API大幅降价，DeepSeek成本最低

2026年上半年，中国AI实验室大幅降低了大模型API价格，DeepSeek、小米和月之暗面（Moonshot）永久性地进行了降价。DeepSeek V4-Pro现在每百万输出token的成本最低，为0.87美元，而小米MiMo V2.5则提供长上下文的统一费率，每百万输出token为3美元。其他值得注意的模型包括阿里巴巴的Qwen3 Max（适用于通用生产平衡）和月之暗面（Moonshot）的Kimi K2.6（适用于高效处理稳定提示）。

TOOL · CL_51191 · May 26 · 04:00

LLM 内存分页使用关键字书签进行长对话

一篇新的研究论文介绍了一种名为协同内存分页的技术，旨在帮助大型语言模型（LLM）管理超出其上下文窗口的对话。该方法用简洁的关键字书签替换被逐出的对话片段，允许 LLM 在必要时使用检索工具来检索完整内容。在 LoCoMo 基准测试上的实验表明，协同分页在多个 LLM 的回答质量方面优于其他方法，尽管其有效性受到生成书签的区分度的显著影响。