English(EN) ClinConsensus: A Physician-Calibrated Benchmark for Evaluating Clinical Rubric Coverage in Chinese Medical LLMs

新的ClinConsensus基准评估中文医疗大语言模型

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-28 04:00

研究人员开发了ClinConsensus，一个旨在评估中文医疗大语言模型（LLMs）临床标准覆盖率的新基准。该基准包含2500个专家策划的跨36个专科的病例，每个病例都有特定的标准标准。引入了一个新颖的指标——临床医生锚定覆盖率得分（CACS），以评估大语言模型响应在多大程度上满足这些医生撰写的标准，并使用GPT-5.1和Qwen3-8B的双裁判框架进行评估。对11个大语言模型的评估显示存在显著的覆盖差距，CACS得分远低于标准的标准准确率，表明医疗AI需要更稳健的评估方法。 AI

影响为评估医疗大语言模型建立了新标准，可能推动临床准确性和安全性方面的改进。

排序理由该集群描述了一篇介绍大语言模型新基准和评估指标的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Xiang Zheng, Han Li, Wenjie Luo, Weiqi Zhai, Yiyuan Li, Chuanmiao Yan, Xue Yang, Kailuan Wu, Ruyi Xu, Tianyun Lu, Tianyi Tang, Yubo Ma, Kexin Yang, Dayiheng Liu, Sen Yang, Lin Qu, Bing Zhao, Hu Wei · 2026-05-28 04:00

ClinConsensus：一个由医生校准的基准，用于评估中文医疗大语言模型中的临床标准覆盖率

arXiv:2603.02097v5 Announce Type: replace Abstract: Open-ended medical LLM evaluation remains weakly grounded in physician-calibrated coverage of clinically relevant response criteria, especially in localized clinical settings. We introduce \textsc{ClinConsensus}, a Chinese medic…

报道来源 [1]

ClinConsensus：一个由医生校准的基准，用于评估中文医疗大语言模型中的临床标准覆盖率

相关实体

相关话题