研究人员开发了 MDIA(多智能体诊断智能体),它利用一个 7 节点临床推理图在 HealthBench Professional 基准测试中取得了优异的性能。当使用 OpenAI 的 GPT-5.4-2026-03-05 进行评估时,MDIA 得分为 0.6272,比 ChatGPT for Clinicians 高出 3.72 个百分点。研究表明,包括专科路由和上下文保留在内的架构设计,而非仅仅提示工程,对智能体的性能有显著影响。评分模型的选择也会引入变异性,MDIA 在由 Gemini 2.5 Pro 评分时得分为 0.6585,凸显了进行多评分者评估的必要性。 AI
影响 证明了 AI 智能体的架构改进可以显著提升在临床基准测试上的性能,为超越提示工程指明了方向。
排序理由 详细介绍新 AI 系统及其在基准测试上性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
- ChatGPT for Clinicians
- Gemini 2.5 Pro
- GPT-5.4-2026-03-05
- HealthBench Professional
- OpenAI
- Roberto Cruz Perez
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →