研究人员开发了ClinConsensus,一个旨在评估中文医疗大语言模型(LLMs)临床标准覆盖率的新基准。该基准包含2500个专家策划的跨36个专科的病例,每个病例都有特定的标准标准。引入了一个新颖的指标——临床医生锚定覆盖率得分(CACS),以评估大语言模型响应在多大程度上满足这些医生撰写的标准,并使用GPT-5.1和Qwen3-8B的双裁判框架进行评估。对11个大语言模型的评估显示存在显著的覆盖差距,CACS得分远低于标准的标准准确率,表明医疗AI需要更稳健的评估方法。 AI
影响 为评估医疗大语言模型建立了新标准,可能推动临床准确性和安全性方面的改进。
排序理由 该集群描述了一篇介绍大语言模型新基准和评估指标的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →