阿里巴巴发布了 Qwen3.7-Max,这是一款 Agent-First 的 LLM,拥有 100 万 token 的上下文窗口,能够执行自主编码任务。该模型在没有人工干预的情况下进行了 35 小时的编码演示,为不熟悉的硬件优化代码,并在定制芯片性能内核上实现了 10 倍的加速。虽然该演示的独立复现尚待验证,但 Qwen3.7-Max 在 Terminal-Bench 2.0 和 MCP-Atlas 等基准测试中表现强劲,超越了部分竞争对手,但在研究生水平的科学推理方面仍有差距,且尝试率较低。 AI
影响 为代理式编码和长上下文推理设定了新的标杆,可能在专业任务上给竞争对手带来压力。
排序理由 前沿实验室模型发布,包含系统卡和基准数据。[lever_c_demoted from frontier_release: ic=1 ai=1.0]
- Alibaba
- Claude Opus 4.6
- Claude Opus 4.7
- GPQA Diamond
- GPT-5.5
- MCP-Atlas
- Qwen3.7-Max
- Qwen3.7-Plus
- Qwen3-Coder-Next
- Terminal-Bench 2.0
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →