MiniMax M2.5 · PulseAugur

AI 自进化可能始于外部系统，而非模型权重

前 OpenAI 安全副总裁 Wonyong Li 提出了一条 AI 自进化的新路径，建议从外部操作系统（Harness）开始，而不是直接修改模型权重。该 Harness 系统负责管理工具使用、上下文、任务拆分和结果验证，并可根据观察到的失败进行迭代改进。DeepSeek 的崔天言等研究人员认为，改进 Harness 是 AI 进步的一个有前景的方向，有可能在不改变核心模型的情况下实现显著的性能提升。

RESEARCH · CL_131276 · Jul 7 · 16:05

AI系统改进活检报告中的幽门螺杆菌检测

研究人员开发了Nimblemind多智能体系统（nMAS），以改进从胃活检报告中提取幽门螺杆菌阳性证据。在一项使用新加坡54份去标识化报告的试点研究中，nMAS在分类与幽门螺杆菌感染相关的四个关键字段时达到了98.61%的准确率。虽然MiniMax M2.5比较器显示出相似的预测性能，但nMAS通过提供带有支持性源句的统一报告级输出来提供更优越的工作流程集成和可追溯性。该系统可以显著减少手动审查时间，可能节省大量员工时间和成本。

TOOL · CL_127840 · Jul 6 · 17:00

MiniMax 模型现已登陆 Amazon Bedrock，支持代理工作负载

Amazon Bedrock 现已提供来自全球人工智能技术公司 MiniMax 的三款开放权重基础模型。这些模型属于 MiniMax M2 系列，专为软件工程和代理用例而设计，其中最新的 M2.5 模型专门针对原生代理执行进行了训练。此次集成使组织能够在 AWS 的安全托管基础设施内利用这些先进模型，确保数据保护和运营控制，而无需自行托管。

RESEARCH · CL_113320 · Jun 21 · 17:23

新算法TASKER改进视频理解和代理任务

研究人员开发了TASKER，一种新颖的关键帧提取算法，旨在提高视频问答（VideoQA）和视频引导代理任务的性能。该算法在一个新论文中进行了详细介绍，它联合考虑任务相关性和场景动态性来识别信息帧。还引入了一个新的基准VG-GUIBench，用于评估多模态大语言模型（MLLMs）遵循视频教程和完成GUI交互任务的能力，证明了TASKER的有效性。

TOOL · CL_100448 · Jun 19 · 09:08

Model Gateway使MiniMax模型可在Claude Code和opencode中使用

一个名为Model Gateway的第三方服务已被开发出来，允许开发者将MiniMax模型（如MiniMax-M3）集成到通常支持OpenAI或Anthropic API的现有编码工作流程中。该网关提供了兼容层，使得在Claude Code和opencode等工具中使用MiniMax模型无需编写自定义适配器代码。开发者可以通过配置指向Model Gateway端点的特定环境变量或配置设置，来测试MiniMax模型执行代码解释、重构和测…

RESEARCH · CL_99607 · Jun 18 · 00:00

新研究探讨强化学习效率、无奖励控制和安全导航

研究人员正在探索强化学习（RL）的新方法，以提高各个领域的效率和性能。一项研究调查了编码代理RL中的“回滚基础设施税”，揭示了执行基底效率的显著差异，并建议将这些基底的优化作为训练系统的一部分。另一篇论文介绍了“Rank-Then-Act”（RTA）框架，该框架无需明确奖励即可从专家视频演示中学习控制策略，利用基于相关性的奖励函数在任务之间稳定迁移。此外，还提出了用于无人机导航的安全RL的进展，重点关注轻量级、安全约束框架，该框架集成…

RESEARCH · CL_88575 · Jun 13 · 04:01

oMLX 通过 KV 缓存提升 Apple Silicon LLM 性能

oMLX 是一个面向 Apple Silicon 的开源 LLM 推理服务器，在处理大型模型和复杂工作流方面展现出显著的性能提升。社区基准测试和本地测试突显了 oMLX 相较于 Ollama 和 LM Studio 等替代方案的优势，尤其是在涉及编码代理和持久化 KV 缓存的场景中。该服务器利用 SSD 进行 KV 缓存的能力极大地缩短了首次令牌生成时间 (TTFT)，使得 Claude Code 和 Qwen3-Coder-Next…

TOOL · CL_79558 · Jun 8 · 13:50

Self-Harness 使 LLM 代理能够改进其自身的操作工具集

研究人员开发了一种名为 Self-Harness 的新颖方法，使基于 LLM 的代理能够自主改进其自身的操作工具集。这个迭代过程包括识别模型特定的失败模式、生成有针对性的工具集修改以及通过回归测试验证这些更改。当应用于 Terminal-Bench-2.0 基准测试中的三个不同基础模型时，Self-Harness 显著提升了性能，展示了通往自优化 AI 代理的道路。

SIGNIFICANT · CL_71038 · Jun 4 · 11:44

MiniMax 发布 M3，拥有百万级上下文，在 SWE-Bench 上超越 GPT-5.5

中国人工智能初创公司 MiniMax 发布了其 M3 模型，拥有百万级 token 上下文窗口和原生多模态能力，在 SWE-Bench Pro 基准测试中表现优于 GPT-5.5。该公司还以远低于 Anthropic 的 Claude Opus 4.7 等竞争对手的价格提供其 M2.5 模型，同时保持与 OpenAI 和 Anthropic 协议的 API 兼容性。MiniMax 提供开源模型用于自托管，并通过其 Cline 代理与 …

TOOL · CL_57927 · May 28 · 21:25

开源大模型演进：注意力机制、多模态和效率提升

近几个月来，开源大模型领域发生了重大变化，滑动窗口注意力机制已成为主流，支持更大的上下文窗口。QK-Norm 也因其作为训练稳定器的作用而受到关注，其根源可追溯至 Gemini 3 的架构。Kimi k2.5 中早期出现的多模态预训练，已被证明有利于推理，而 Z.ai 的 GLM-5，尽管经过修改，但性能可与顶级闭源模型相媲美。Step 3.5 Flash 在推理速度和多令牌预测方面表现突出，尽管基准测试性能并不总是与用户偏好一致。

RESEARCH · CL_55621 · May 28 · 00:54

AI模型定价革命：中国实验室在代码基准测试中大幅削价GPT-5、Gemini

AI模型市场在定价和性能方面发生了重大转变，尤其是在SWE-bench等代码基准测试中。来自DeepSeek、Kimi和MiniMax等中国实验室的模型，以更低的成本提供了与Claude Opus和GPT-5等顶级模型相当甚至更优的性能。这一趋势归因于混合专家（Mixture-of-Experts）架构的进步、中国实验室因硬件限制而采取的成本优化策略，以及强化学习技术在代码领域的广泛应用。此外，非常低成本的缓存输入Token的出现，特…

RESEARCH · CL_53475 · May 26 · 00:00

MiniMax-M2 模型通过高效激活实现前沿性能

研究人员推出了 MiniMax-M2 系列，这是一系列专为代理部署设计的新型专家混合（Mixture-of-Experts）语言模型。旗舰 M2 模型拥有 2299 亿个总参数，但每个 token 仅激活 98 亿个，强调了效率。该系列建立在由代理驱动的数据管道、一个名为 Forge 的可扩展的代理原生强化学习系统以及一个（M2.7）检查点之上，该检查点通过调试训练运行展示了早期自我进化的能力。MiniMax-M2 系列在各种代理基准…

RESEARCH · CL_48041 · May 20 · 00:00

Fireworks AI：AI智能体瓶颈在于可靠性而非智力

Fireworks AI 的一项新基准测试显示，AI模型执行的可靠性，而不仅仅是智力，是智能体AI系统的关键瓶颈。在 720 项浏览器自动化任务中，一个模型近 20% 的时间未能产生有效输出，导致重试率、延迟和成本显著增加。该研究引入了“智能体执行税”来量化这一开销，强调在生产环境中，具有一致、可靠输出的模型比只有高推理分数的模型更有价值。

RESEARCH · CL_47631 · May 19 · 00:00

新的代理框架通过主动证据搜寻提升大型语言模型临床推理能力

研究人员开发了ClinSeekAgent，这是一个旨在增强大型语言模型临床推理能力的新型框架，使其能够主动搜寻和综合多模态证据。与依赖预选数据的先前方法不同，ClinSeekAgent动态查询医学知识库、导航电子健康记录并利用成像工具来收集信息。这种主动证据搜寻过程显著提高了Claude Opus 4.6和MiniMax M2.5等模型在纯文本和多模态临床任务上的表现，ClinSeek-Bench基准的创建证明了这一点。

TOOL · CL_37611 · May 18 · 19:59

LLM 基准测试显示路由策略优于单一模型选择

最近的一项基准测试在 38 个真实世界编码任务上测试了 15 个 LLM，结果表明，结合不同模型的路由策略比选择单一顶级模型更有效。研究发现，Gemini Flash 和 GPT-oss-20b 等更便宜的模型足以胜任许多任务，以较低的成本实现了高准确率。对于更复杂的任务，Opus 和 Sonnet 等模型表现出色，该基准测试强调了根据任务复杂性、速度和成本对 LLM 进行分层部署的方法。

TOOL · CL_24306 · May 9 · 15:47

通过调整“思维模式”参数解决了 LLM 基准测试问题

一位开发者在对 Kimi K2.5、MiniMax M2.5 和 Gemma 4 三个大型语言模型进行基准测试时遇到了问题，最初因得分低或出现错误而认为它们已损坏。根本原因被确定为默认的“思维模式”在生成输出之前就消耗了 token 配额。调整诸如“reasoning: {"effort": "none"}"或“include_reasoning: false”之类的特定参数解决了这些问题，显著提高了模型的基准测试性能。

TOOL · CL_23871 · May 9 · 05:53

低成本 AI 模型凭借新的上下文引擎在编码基准测试中击败顶级模型

一种名为 Xanther Context Engine (XCE) 的新方法使 MiniMax M2.5 模型在 SWE-bench Verified 基准测试中取得了 78.2% 的得分，超越了所有其他模型。这一成就之所以引人注目，是因为 MiniMax M2.5 是一个低成本模型，每次调用的成本仅为 0.02 美元，并且性能提升归功于改进的上下文理解，而非更强大的底层模型。XCE 为 AI 编码代理提供了架构上下文，显著增强了它们…

COMMENTARY · CL_20705 · May 7 · 04:27

人工智能模型：选择基准而非炒作以获得真正性能

最近的一项分析强调，科技公司经常根据炒作而不是在相关基准上的表现来选择人工智能模型。文章强调，像SWE-bench（用于编码）、Terminal-Bench（用于DevOps）和GPQA Diamond（用于科学推理）这样的基准对于评估特定能力至关重要。文章建议，像MMLU和HumanEval这样经常被引用的基准现在已经饱和，无法再有效地区分领先的模型。

RESEARCH · CL_16506 · May 5 · 09:38

Hugging Face 博客文章涵盖 Intel CPU VLM、MiniMax M2 代理和 Gradio 自定义前端

此集群重点介绍了 Hugging Face 的三篇不同的技术博客文章，通过 Mastodon 分享。第一篇文章详细介绍了如何使用 OpenVINO 在 Intel CPU 上运行视觉语言模型 (VLM)。第二篇探讨了 MiniMax M2 背景下的代理泛化。第三篇文章侧重于利用 Gradio 的后端功能创建自定义前端。

TOOL · CL_17917 · Mar 12 · 18:52

IonRouter 推出具有自定义 IonAttention 引擎的 AI 推理服务

IonRouter 推出了新的推理服务，该服务专为高吞吐量和低成本而设计，并利用其专有的 IonAttention 引擎。该引擎能够将多个模型多路复用到单个 GPU 上，从而实现快速模型切换和实时流量适应。该服务支持各种开源模型和微调模型，提供按秒计费和极短的冷启动时间，适用于机器人技术和实时视频分析等应用。