PulseAugur
实时 15:38:54
English(EN) MedicalAgentsBench for Complex Medical Reasoning: Comparing Internalized Reasoning Models versus Externalized Agent-based Frameworks

新的基准MedicalAgentsBench测试LLM的复杂医学推理能力

研究人员开发了MedicalAgentsBench,这是一个旨在评估大型语言模型复杂医学推理能力的新基准。该基准包含862个临床问题,比较了内化推理模型与外化基于代理的框架。研究结果表明,这两种方法都能独立提升性能,并且它们的结合能产生最佳结果,其中o3-mini模型与MDAgents框架的组合达到了最高的准确率。 AI

影响 该基准有望推动AI在处理复杂医学推理能力方面的改进,可能有助于临床决策支持。

排序理由 该集群包含一篇详细介绍用于评估AI模型的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yanjun Shao, Xiangru Tang, Jiwoong Sohn, Jiapeng Chen, Yuxuan Liao, Jiayi Zhang, Jinyu Xiang, Fang Wu, Yilun Zhao, Chenglin Wu, Wenqi Shi, Arman Cohan, Mark Gerstein ·

    MedicalAgentsBench for Complex Medical Reasoning: Comparing Internalized Reasoning Models versus Externalized Agent-based Frameworks

    arXiv:2503.07459v3 Announce Type: replace-cross Abstract: Complex medical reasoning requires integrating heterogeneous clinical evidence across multiple inference steps. Large language models (LLMs) now approach this through two routes: internalized reasoning and externalized age…