PulseAugur
实时 13:27:45
实体 TempoMed-Bench

TempoMed-Bench

PulseAugur coverage of TempoMed-Bench — every cluster mentioning TempoMed-Bench across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_30794 ·

    新基准揭示大型语言模型在医学知识方面缺乏时间感知能力

    研究人员开发了 TempoMed-Bench,这是一个旨在评估大型语言模型(LLM)在医学领域的时间感知能力的新基准。现有的评估常常忽略医学知识的动态性,因为医学知识会随着新证据和治疗方法的出现而演变。该基准的分析显示,大型语言模型在回忆过时的医疗信息方面存在困难,并表现出时间上不一致的行为,这表明它们在处理特定时间点的医疗知识方面存在重大缺陷。