一项名为DALPHIN的新基准已被开发出来,用于评估数字病理学中的AI助手。该基准包含超过1200张图像,并与31位人类病理学家进行了性能比较。GPT-5和Gemini 2.5 Pro等通用模型,以及一个名为PathChat+的专业助手,在各种诊断任务上接受了测试。 AI
影响 为评估AI在特定医学领域的诊断能力树立了新标准,可能指导未来的开发和应用。
排序理由 该集群描述了一篇介绍数字病理学AI基准数据集和评估方法的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →