研究人员开发了MedicalAgentsBench,这是一个旨在评估大型语言模型复杂医学推理能力的新基准。该基准包含862个临床问题,比较了内化推理模型与外化基于代理的框架。研究结果表明,这两种方法都能独立提升性能,并且它们的结合能产生最佳结果,其中o3-mini模型与MDAgents框架的组合达到了最高的准确率。 AI
影响 该基准有望推动AI在处理复杂医学推理能力方面的改进,可能有助于临床决策支持。
排序理由 该集群包含一篇详细介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →