研究人员开发了 TempoMed-Bench,这是一个旨在评估大型语言模型(LLM)在医学领域的时间感知能力的新基准。现有的评估常常忽略医学知识的动态性,因为医学知识会随着新证据和治疗方法的出现而演变。该基准的分析显示,大型语言模型在回忆过时的医疗信息方面存在困难,并表现出时间上不一致的行为,这表明它们在处理特定时间点的医疗知识方面存在重大缺陷。 AI
影响 突显了大型语言模型在医学等对时间敏感领域的一个关键局限性,需要对时间知识编码进行未来研究。
排序理由 该集群包含一篇介绍用于评估大型语言模型能力的新颖基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →