研究人员推出了EHR-Complex,这是一个新的基准,旨在评估AI代理在与复杂的电子健康记录(EHR)数据交互时进行临床推理的能力。与使用简化数据上的静态SQL的先前基准不同,EHR-Complex使用广泛的MIMIC-IV数据集模拟了一个交互式环境,要求代理执行SQL查询和Python代码。初步评估表明,即使是表现最好的模型在准确性和一致性方面也面临挑战,这凸显了AI进行稳健EHR分析的重大挑战。 AI
影响 该基准将推动更强大的AI代理在复杂医疗数据分析和临床决策支持方面的发展。
排序理由 该集群描述了一个新的AI研究基准,发表在arXiv论文中。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →