研究人员开发了GlobalDentBench,一个旨在评估大型语言模型(LLM)在牙科领域临床推理能力的新基准。该基准包含近9000个经过专家验证的问题,涵盖14个牙科专业和88个国家,评估知识回忆、常规推理和个体化推理。对12个前沿LLM的初步评估显示,随着推理复杂度的增加,性能显著下降,生成的临床建议存在惊人的31.01%的总体不安全率,凸显了在医疗保健领域安全部署的关键局限性。 AI
影响 强调了当前LLM在医疗保健领域存在的关键安全和推理局限性,并强调了在临床部署前进行严格验证的必要性。
排序理由 发布了一个用于评估LLM在特定领域性能的新学术基准。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →