研究人员开发了一个名为CareTransition-Audit的新基准,用于评估大型语言模型审计临床出院小结的性能。该基准使用MIMIC-IV数据库和临床医生提供的标签,评估文档的完整性以及与人类专家的_一致性_。尽管目前的大型语言模型与临床医生的_一致性_适中,但它们在识别模糊信息方面存在困难,这表明需要进一步开发自动化的临床文档质量改进。 AI
影响 该基准可以加速用于临床文档审计的大型语言模型的开发,从而提高患者安全和护理转诊。
排序理由 该集群包含一篇学术论文,详细介绍了用于评估大型语言模型在特定任务上表现的新基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →