实体 ClinConsensus

ClinConsensus

PulseAugur coverage of ClinConsensus — every cluster mentioning ClinConsensus across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_56359 · May 28 · 04:00

新的ClinConsensus基准评估中文医疗大语言模型

研究人员开发了ClinConsensus，一个旨在评估中文医疗大语言模型（LLMs）临床标准覆盖率的新基准。该基准包含2500个专家策划的跨36个专科的病例，每个病例都有特定的标准标准。引入了一个新颖的指标——临床医生锚定覆盖率得分（CACS），以评估大语言模型响应在多大程度上满足这些医生撰写的标准，并使用GPT-5.1和Qwen3-8B的双裁判框架进行评估。对11个大语言模型的评估显示存在显著的覆盖差距，CACS得分远低于标准的标准…