实体 MCP Atlas

MCP Atlas

PulseAugur coverage of MCP Atlas — every cluster mentioning MCP Atlas across labs, papers, and developer communities, ranked by signal.

总计 · 30天

8

90 天内 8

发布 · 30天

0

90 天内 0

论文 · 30天

4

90 天内 4

层级分布 · 90 天

frontier release 1
significant 1
research 3
tool 3

主题

关系

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 8 条

RESEARCH · CL_83090 · Jun 10 · 10:42

AI模型在7项能力上的对比：GPT-5.5、Claude Opus 4.8领跑

对八款AI模型在七个能力维度上的对比分析显示，没有一款是全能冠军。GPT-5.5在代理任务和长上下文方面表现出色，而Claude Opus 4.8在编码和通用知识方面领先。Gemini 3.5 Flash提供了强大的代理价值和多模态能力，DeepSeek V4 Pro则在竞技编程和数学方面展现出实力。
TOOL · CL_60204 · May 29 · 19:01

AI 编码代理：GPT-5.5、Claude Sonnet 4.6、Gemini 3.5 Flash 对比

最近的一项比较评估了三个 AI 编码代理：OpenAI 的 Codex（由 GPT-5.5 提供支持）、Anthropic 的 Claude Code（使用 Claude Sonnet 4.6）和 Google 的 Antigravity（使用 Gemini 3.5 Flash）。实验侧重于实际工程任务，以确定哪个代理表现最佳。GPT-5.5 在终端命令执行方面表现出色，Claude Sonnet 4.6 在生产代码任务的 SWE-B…
FRONTIER RELEASE · CL_59643 · May 29 · 12:35

Google 发布 Gemini 3.5 Flash 用于 Agentic Coding

Google 发布了 Gemini 3.5 Flash，这是一款针对 Agentic Coding 任务和工具编排优化的新型 Flash 级别模型。该模型旨在比之前的 Pro 级别模型在特定 Agent 循环中更具成本效益，在 MCP Atlas 等 Agentic 基准测试中表现优于 Gemini 3.1 Pro。然而，与前代模型相比，它在长上下文检索和抽象推理方面有所退步，并且尽管每 token 定价较低，但其每任务成本可能高于预…
SIGNIFICANT · CL_56706 · May 28 · 08:20

阿里巴巴推出 Qwen3.7-Max，拥有 1M 上下文和自主编码能力

阿里巴巴发布了 Qwen3.7-Max，这是一款 Agent-First 的 LLM，拥有 100 万 token 的上下文窗口，能够执行自主编码任务。该模型在没有人工干预的情况下进行了 35 小时的编码演示，为不熟悉的硬件优化代码，并在定制芯片性能内核上实现了 10 倍的加速。虽然该演示的独立复现尚待验证，但 Qwen3.7-Max 在 Terminal-Bench 2.0 和 MCP-Atlas 等基准测试中表现强劲，超越了部分竞…
SIGNIFICANT · CL_45430 · May 23 · 02:32

Google 的 Gemini 3.5 Flash 在编码和代理任务上超越 3.1 Pro

Google 的 Gemini 3.5 Flash 模型在多项关键基准测试中超越了其前身 Gemini 3.1 Pro，尤其是在编码和代理任务方面。这一新层级相比 3.1 Pro 提供了显著的成本降低 40%，并且输出生成速度大约快四倍。虽然 Gemini 3.5 Flash 在工具使用和代理性能方面表现出色，但 Gemini 3.1 Pro 在纯粹推理和新颖问题解决基准测试中仍保持优势。
TOOL · CL_38282 · May 18 · 17:37

EnvFactory 通过合成环境自动化 LLM 工具使用训练

研究人员开发了 EnvFactory，这是一个旨在通过代理强化学习增强大型语言模型工具使用能力的自动化框架。该系统合成可执行工具环境，并从真实资源生成逼真的多轮训练轨迹。通过采用拓扑感知采样和精炼，EnvFactory 生成具有隐式意图的接地查询，克服了先前依赖昂贵 API 或简单合成数据的方法的局限性。该框架已显示出显著的性能提升，在 BFCLv3 等基准测试中将 Qwen3 系列模型提升了高达 15%，并增强了对话能力。
SIGNIFICANT · CL_39378 · May 15 · 22:50

Google DeepMind 发布 Gemini 3.5 Flash，用于加速代理任务

Google DeepMind 推出了 Gemini 3.5 Flash，这是一款针对速度和代理任务进行了优化的新型前沿智能模型。该模型在编码和代理开发等复杂、长周期的任务方面表现出色，在 Terminal-Bench 2.1 和 GDPval-AA 等基准测试中优于之前的 Gemini 版本。Gemini 3.5 Flash 现已通过 Gemini 应用、Google AI Studio 和企业解决方案等各种 Google 平台在全…
TOOL · CL_18655 · May 6 · 04:00

MCP-Atlas基准测试使用真实服务器评估LLM的工具使用能力

研究人员推出了MCP-Atlas，这是一个旨在评估大型语言模型工具使用能力的新基准测试。该基准测试包含36个真实的MCP服务器和220个工具，有1000个任务需要多步工作流和多工具调用编排。对先进模型的初步评估显示，尽管顶级模型的通过率超过50%，但常见的失败源于工具使用和任务理解方面的问题。