English(EN) EHRNote-ChatQA: A Benchmark for Evidence-Grounded Multi-Turn Clinical Question Answering over Longitudinal Discharge Summaries

新基准测试 LLM 的多轮临床问答能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

研究人员推出了 EHRNote-ChatQA，这是一个新颖的基准，旨在评估纵向患者出院总结的多轮临床问答能力。该基准源自已去标识化的 MIMIC-IV 数据，包含 967 个患者样本中的 16,000 多个专家验证的问答对。对 22 个 LLM 的初步评估表明，在证据支持和多轮错误累积方面存在显著挑战，这表明在单轮临床问答中的表现不能可靠地转化为这种更复杂的场景。 AI

影响为临床 LLM 应用建立了新的评估标准，突出了当前在证据支持和多轮推理方面的局限性。

排序理由该集群描述了一篇介绍 AI 研究基准的新学术论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jiyoun Kim, Muhan Yeo, Eunhye Jang, Jeewon Yang, Hangyul Yoon, Su Ji Lee, Hee Jo Han, Hee-Jae Jung, Doyun Kwon, Jun young Lee, Jaehun Lee, Jung-Oh Lee, Sunjun Kweon, Jong Hak Moon, Daseul Kim, Minjae Cho, Edward Choi · 2026-06-16 04:00

EHRNote-ChatQA: A Benchmark for Evidence-Grounded Multi-Turn Clinical Question Answering over Longitudinal Discharge Summaries

arXiv:2606.15735v1 Announce Type: cross Abstract: Discharge summaries are crucial clinical documents containing the context of a patient's overall hospital stay, and are routinely reviewed by medical experts for patient readmission, ongoing care, and diagnostic decision-making. W…

报道来源 [1]

EHRNote-ChatQA: A Benchmark for Evidence-Grounded Multi-Turn Clinical Question Answering over Longitudinal Discharge Summaries

相关实体

相关话题