Clinical AI Fails on Complex Questions Due to Transformer Limits

By PulseAugur Editorial · [2 sources] · 2026-06-15 16:00

A new research paper published on arXiv explores the limitations of large language models in clinical question answering. The study found that models like Claude Sonnet, GPT-4o, and GPT-5.4-2026-03-05 exhibit a significant decline in accuracy as the complexity of reasoning required for a clinical question increases. This decline is attributed to the inherent compositional reasoning limits of transformer architectures, rather than issues with EHR data truncation. AI

IMPACT Highlights potential risks in deploying clinical AI by showing accuracy degrades with question complexity, suggesting a need for careful risk stratification.

RANK_REASON The cluster contains a research paper published on arXiv detailing empirical findings about AI model performance.

Read on arXiv cs.AI →

paper
safety

AI-generated summary · Google Gemini · from 2 sources. How we write summaries →

COVERAGE [2]

arXiv cs.AI TIER_1 English(EN) · Sanjay Basu · 2026-06-16 04:00

Compositional Reasoning Depth Predicts Clinical AI Failure: Empirical Evidence Consistent with Transformer Compositionality Limits in Electronic Health Record Question Answering

arXiv:2606.16890v1 Announce Type: cross Abstract: Aggregate accuracy benchmarks conceal a systematic structure in how large language models fail at electronic health record (EHR) question answering: questions requiring more inferential steps produce disproportionately more errors…
arXiv cs.AI TIER_1 English(EN) · Sanjay Basu · 2026-06-15 16:00

Compositional Reasoning Depth Predicts Clinical AI Failure: Empirical Evidence Consistent with Transformer Compositionality Limits in Electronic Health Record Question Answering

Aggregate accuracy benchmarks conceal a systematic structure in how large language models fail at electronic health record (EHR) question answering: questions requiring more inferential steps produce disproportionately more errors. Motivated by theoretical results on transformer …

COVERAGE [2]

Compositional Reasoning Depth Predicts Clinical AI Failure: Empirical Evidence Consistent with Transformer Compositionality Limits in Electronic Health Record Question Answering

Compositional Reasoning Depth Predicts Clinical AI Failure: Empirical Evidence Consistent with Transformer Compositionality Limits in Electronic Health Record Question Answering

RELATED ENTITIES

RELATED TOPICS