English(EN) Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

临床大语言模型在诊断中的语义稳定性接受评估

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-01 04:00

研究人员开发了一个新框架来评估临床大语言模型（LLMs）的语义稳定性。该框架使用自然语言推理（NLI）来过滤保留临床意义的提示词变体，解决了因细微语言变化导致大语言模型产生不一致诊断的风险。研究评估了16个大语言模型，发现领域专业化并不总是能保证鲁棒性提高，一些通用模型仍然具有竞争力。 AI

影响凸显了大语言模型在医疗保健领域至关重要的安全问题，强调了超越简单语义相似性进行鲁棒评估的必要性。

排序理由学术论文，详细介绍了一个特定领域大语言模型的新评估框架。[lever_c_demoted from research: ic=1 ai=1.0]

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Mahdi Alkaeed, Adnan Qayyum, Nabeel Abo Kashreef, Muhammad Bilal, Junaid Qadir · 2026-06-01 04:00

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

arXiv:2605.30646v1 Announce Type: cross Abstract: Large Language Models (LLMs) are increasingly used in clinical applications. However, their behavior remains highly sensitive to subtle linguistic variations, such as rephrasing or syntactic variation. This sensitivity poses risks…