研究人员推出了 EHRNote-ChatQA,这是一个新颖的基准,旨在评估纵向患者出院总结的多轮临床问答能力。该基准源自已去标识化的 MIMIC-IV 数据,包含 967 个患者样本中的 16,000 多个专家验证的问答对。对 22 个 LLM 的初步评估表明,在证据支持和多轮错误累积方面存在显著挑战,这表明在单轮临床问答中的表现不能可靠地转化为这种更复杂的场景。 AI
影响 为临床 LLM 应用建立了新的评估标准,突出了当前在证据支持和多轮推理方面的局限性。
排序理由 该集群描述了一篇介绍 AI 研究基准的新学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →