English(EN) MedicalAgentsBench for Complex Medical Reasoning: Comparing Internalized Reasoning Models versus Externalized Agent-based Frameworks

新的基准MedicalAgentsBench测试LLM的复杂医学推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-17 04:00

研究人员开发了MedicalAgentsBench，这是一个旨在评估大型语言模型复杂医学推理能力的新基准。该基准包含862个临床问题，比较了内化推理模型与外化基于代理的框架。研究结果表明，这两种方法都能独立提升性能，并且它们的结合能产生最佳结果，其中o3-mini模型与MDAgents框架的组合达到了最高的准确率。 AI

影响该基准有望推动AI在处理复杂医学推理能力方面的改进，可能有助于临床决策支持。

排序理由该集群包含一篇详细介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Yanjun Shao, Xiangru Tang, Jiwoong Sohn, Jiapeng Chen, Yuxuan Liao, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein · 2026-06-17 04:00

MedicalAgentsBench for Complex Medical Reasoning: Comparing Internalized Reasoning Models versus Externalized Agent-based Frameworks

arXiv:2503.07459v3 Announce Type: replace-cross Abstract: Complex medical reasoning requires integrating heterogeneous clinical evidence across multiple inference steps. Large language models (LLMs) now approach this through two routes: internalized reasoning and externalized age…

报道来源 [1]

MedicalAgentsBench for Complex Medical Reasoning: Comparing Internalized Reasoning Models versus Externalized Agent-based Frameworks

相关实体

相关话题