一项新的基准测试已被开发出来,用于评估大型语言模型(LLMs)在临床文本中保留诊断不确定性的能力。研究发现,当前的LLMs往往无法维持原有的不确定性水平,有时保留不确定性的次数不到一半。该研究强调了LLMs在临床环境中一种关键的失效模式,因为改变不确定性表达会显著改变临床意义并影响治疗决策。 AI
影响 强调了LLMs在临床工作流程中的一种关键失效模式,影响安全部署和治疗决策。
排序理由 该集群包含一篇详细介绍新基准和LLM评估的学术论文。
- arXiv
- Clinical text classification under the Open and Closed Topic Assumptions
- Diagnostic uncertainty during the transition to secondary progressive multiple sclerosis
- large language models
- pneumonia
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →