实体 TempoMed-Bench

TempoMed-Bench

PulseAugur coverage of TempoMed-Bench — every cluster mentioning TempoMed-Bench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_30794 · May 13 · 06:04

新基准揭示大型语言模型在医学知识方面缺乏时间感知能力

研究人员开发了 TempoMed-Bench，这是一个旨在评估大型语言模型（LLM）在医学领域的时间感知能力的新基准。现有的评估常常忽略医学知识的动态性，因为医学知识会随着新证据和治疗方法的出现而演变。该基准的分析显示，大型语言模型在回忆过时的医疗信息方面存在困难，并表现出时间上不一致的行为，这表明它们在处理特定时间点的医疗知识方面存在重大缺陷。