新基准揭示牙科LLM推理存在关键安全缺陷

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-26 04:00

研究人员开发了GlobalDentBench，一个旨在评估大型语言模型（LLM）在牙科领域临床推理能力的新基准。该基准包含近9000个经过专家验证的问题，涵盖14个牙科专业和88个国家，评估知识回忆、常规推理和个体化推理。对12个前沿LLM的初步评估显示，随着推理复杂度的增加，性能显著下降，生成的临床建议存在惊人的31.01%的总体不安全率，凸显了在医疗保健领域安全部署的关键局限性。 AI

影响强调了当前LLM在医疗保健领域存在的关键安全和推理局限性，并强调了在临床部署前进行严格验证的必要性。

排序理由发布了一个用于评估LLM在特定领域性能的新学术基准。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Junjie Zhao, Jingyi Liang, Zhenyang Cai, Jiaming Zhang, Zhenwei Wen, Shuzhi Deng, Wenjing Yi, Chunfeng Luo, Hexian Zhang, Junying Chen, Tianrui Liu, Zhuhui Bai, Zixu Zhang, Pradeep Singh, Xiang Liu, Jianquan Li, Nhan L Tran, Falk Schwendicke, Zuolin Jin,… · 2026-05-26 04:00

GlobalDentBench: A Multinational Benchmark for Evaluating LLM Clinical Reasoning in Dentistry with Expert Calibration

arXiv:2605.24636v1 Announce Type: new Abstract: While large language models (LLMs) hold transformative potential for medicine, their reasoning robustness and safety in real-world clinical scenarios remain critically underexplored, particularly in dentistry. Here we introduce Glob…

报道来源 [1]

GlobalDentBench: A Multinational Benchmark for Evaluating LLM Clinical Reasoning in Dentistry with Expert Calibration

相关实体

相关话题