PulseAugur
实时 23:59:04
实体 GlobalDentBench

GlobalDentBench

PulseAugur coverage of GlobalDentBench — every cluster mentioning GlobalDentBench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
时间线
  1. 2026-05-26 research_milestone Introduction of GlobalDentBench, a new benchmark for evaluating LLM clinical reasoning in dentistry. 来源
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_50849 ·

    新基准揭示牙科LLM推理存在关键安全缺陷

    研究人员开发了GlobalDentBench,一个旨在评估大型语言模型(LLM)在牙科领域临床推理能力的新基准。该基准包含近9000个经过专家验证的问题,涵盖14个牙科专业和88个国家,评估知识回忆、常规推理和个体化推理。对12个前沿LLM的初步评估显示,随着推理复杂度的增加,性能显著下降,生成的临床建议存在惊人的31.01%的总体不安全率,凸显了在医疗保健领域安全部署的关键局限性。