实体 CLExEval

CLExEval

PulseAugur coverage of CLExEval — every cluster mentioning CLExEval across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条

RESEARCH · CL_117331 · Jun 29 · 07:16

新框架揭示大语言模型临床推理缺陷，尽管诊断准确性尚可

两篇新研究论文介绍了评估大语言模型（LLMs）临床推理能力的框架。第一篇，CLExEval，采用一种人工干预的循环方法，通过渐进式信息屏蔽来揭示诸如冗余偏见和推理到输出不匹配等失败模式，涉及GPT-4o-mini等模型。第二篇，临床推理图谱（Clinical Reasoning Graphs），采用结构化图表示来分析大语言模型的诊断轨迹，揭示模型虽然表现出诊断能力，但在相似病例中缺乏一致的推理。两项研究都强调，除了简单的准确性指标外，…