中文(ZH) 百度搭子DuMate登顶PinchBench，超越Anthropic拿下全球龙虾执行争霸赛冠军

百度DuMate智能体在PinchBench和DeepResearch基准测试中名列前茅

作者 PulseAugur 编辑部 · [2 个来源] · 2026-05-08 10:36

百度DuMate智能体在PinchBench和DeepResearch两大关键基准测试中均取得了领先地位。在评估真实场景下多步推理和工具使用的PinchBench测试中，DuMate占据了前两名，超越了Anthropic和OpenAI的模型。该智能体的成功归功于其端到端的协作Harness架构，该架构能够智能地在本地或云端处理任务并优化上下文组装。DuMate还在专为复杂研究任务设计的DeepResearch基准测试中领先，展示了其先进的信息检索和分析能力。 AI

影响展示了先进的智能体能力，可能为AI任务执行和研究树立新标准。

排序理由 AI智能体的产品发布和基准测试表现公告。

在雷峰网 (Leiphone) 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

百度DuMate智能体在PinchBench和DeepResearch基准测试中名列前茅

报道来源 [2]

雷峰网 (Leiphone) TIER_1 中文(ZH) · 2026-05-08 10:36

百度DuMate在PinchBench上夺冠，超越Anthropic赢得全球龙虾执行冠军

<p>5月8日凌晨，百度搭子DuMate登顶智能体评测基准PinchBench榜首，并在前5位中占据3席，超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。在另外一项DeepResearch深度研究榜单中，DuMate同样位列第一。</p><p>PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准，重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力，并从成功率、速度、成本三个维度综合排名。榜单显示，DuMate以93.3%和93.2%的总成绩包揽前两名。作为对照，Anthro…
Mastodon — sigmoid.social TIER_1 한국어(KO) · [email protected] · 2026-05-08 20:50

百度公司（@Baidu_Inc）DuMate 智能体功能在 PinchBench 和 DeepResearch Bench 中分别排名第一的推文。内容强调了智能体类型 AI 的基准性能，展示了产品竞争力和实际任务执行能力。

Baidu Inc. (@Baidu_Inc) DuMate 에이전트 기능이 PinchBench와 DeepResearch Bench에서 각각 1위를 기록했다는 성능 결과를 공유한 ट्वीट입니다. 에이전트형 AI의 벤치마크 성과를 강조하는 내용으로, 제품 경쟁력과 실제 작업 수행 능력을 보여주는 중요한 업데이트입니다. https:// x.com/Baidu_Inc/status/2052672 359283458273 # agent # benchmark # ai # deeprsearch # productivi…

报道来源 [2]

百度DuMate在PinchBench上夺冠，超越Anthropic赢得全球龙虾执行冠军

百度公司（@Baidu_Inc）DuMate 智能体功能在 PinchBench 和 DeepResearch Bench 中分别排名第一的推文。内容强调了智能体类型 AI 的基准性能，展示了产品竞争力和实际任务执行能力。

相关实体

相关话题