临床AI在复杂问题上表现不佳，新研究发现

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-16 04:00

一篇新的arXiv论文揭示，大型语言模型在回答电子健康记录中的临床问题时的准确性，随着所需推理复杂度的增加而显著下降。研究人员开发了一种“跳数”（hop-count）分类法来衡量问题所需的推理步骤数，发现在Claude Sonnet、GPT-4o和GPT-5.4-2026-03-05等模型中，随着跳数的增加，准确性持续下降。这表明当前的Transformer架构在组合推理方面可能存在固有的局限性，对临床AI的部署构成了风险。 AI

影响由于大型语言模型在复杂推理方面存在困难，临床AI的部署面临风险，需要根据问题复杂度对部署进行仔细分层。

排序理由该集群包含一篇在arXiv上发表的学术论文，详细介绍了研究结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Sanjay Basu · 2026-06-16 04:00

Compositional Reasoning Depth Predicts Clinical AI Failure: Empirical Evidence Consistent with Transformer Compositionality Limits in Electronic Health Record Question Answering

arXiv:2606.16890v1 Announce Type: cross Abstract: Aggregate accuracy benchmarks conceal a systematic structure in how large language models fail at electronic health record (EHR) question answering: questions requiring more inferential steps produce disproportionately more errors…

报道来源 [1]

Compositional Reasoning Depth Predicts Clinical AI Failure: Empirical Evidence Consistent with Transformer Compositionality Limits in Electronic Health Record Question Answering

相关实体

相关话题