English(EN) OralMLLM-Bench: Evaluating Cognitive Capabilities of Multimodal Large Language Models in Dental Practice

新基准评估牙科实践中多模态大语言模型的能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-05 04:00

研究人员开发了OralMLLM-Bench，这是一个旨在评估多模态大语言模型（MLLMs）在牙科放射学领域认知能力的新基准。该基准涵盖了三种牙科X光片的感知、理解、预测和决策能力，纳入了超过3800名临床医生对27项不同任务的评估。评估显示，包括GPT-5.2和GLM-4.6等模型在内的当前MLLMs与人类牙科专业人员之间存在性能差距，突显了临床环境中未来AI发展的方向。 AI

影响引入了一个专门的基准来评估牙科诊断中的AI，可能指导未来临床应用的模型开发。

排序理由这是一篇介绍新AI模型评估基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Rongyang Wang, Shuang Zhou, Jiashuo Wang, Wenya Xie, Xiaoxia Che · 2026-05-05 04:00

OralMLLM-Bench: Evaluating Cognitive Capabilities of Multimodal Large Language Models in Dental Practice

arXiv:2605.01333v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) have emerged as a promising paradigm for dental image analysis. However, their ability to capture the multi-level cognitive processes required for radiographic analysis remains unclear. Here,…

报道来源 [1]

OralMLLM-Bench: Evaluating Cognitive Capabilities of Multimodal Large Language Models in Dental Practice

相关实体

相关话题