研究人员开发了ClinicalBr,一个新的双语基准,用于评估巴西葡萄牙语和英语的临床大型语言模型。该基准源自真实的巴西医疗病例报告,涵盖诊断检索、鉴别诊断和治疗计划等任务。初步研究结果表明,虽然英语模型在诊断检索方面具有优势,但这种差距在其他任务上有所缩小,葡萄牙语的表现有时甚至超过英语。 AI
影响 为非英语语言的临床LLM建立了新的评估标准,有可能提高全球可及性和性能。
排序理由 该集群包含一篇介绍LLM评估新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →