PulseAugur
实时 00:28:10
English(EN) MDIA: A Multi-Agent Diagnostic Intelligence Pipeline on HealthBench Professional

MDIA 智能体在 HealthBench Professional 基准测试中取得高分

研究人员开发了 MDIA(多智能体诊断智能体),它利用一个 7 节点临床推理图在 HealthBench Professional 基准测试中取得了优异的性能。当使用 OpenAIGPT-5.4-2026-03-05 进行评估时,MDIA 得分为 0.6272,比 ChatGPT for Clinicians 高出 3.72 个百分点。研究表明,包括专科路由和上下文保留在内的架构设计,而非仅仅提示工程,对智能体的性能有显著影响。评分模型的选择也会引入变异性,MDIA 在由 Gemini 2.5 Pro 评分时得分为 0.6585,凸显了进行多评分者评估的必要性。 AI

影响 证明了 AI 智能体的架构改进可以显著提升在临床基准测试上的性能,为超越提示工程指明了方向。

排序理由 详细介绍新 AI 系统及其在基准测试上性能的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Roberto Cruz, David Rey-Blanco ·

    MDIA:HealthBench Professional 上的多智能体诊断智能管线

    arXiv:2605.24699v1 Announce Type: new Abstract: Most reported gains on agentic-LLM clinical benchmarks are often attributed to prompt engineering, yet our results suggest that larger improvements can come from architectural and engine-level design. We present MDIA, a Multi-agent …