PulseAugur
实时 05:27:12
实体 RealICU

RealICU

PulseAugur coverage of RealICU — every cluster mentioning RealICU across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_30744 ·

    新的 RealICU 基准测试对长上下文 ICU 数据进行 LLM 智能体测试

    研究人员开发了 RealICU,这是一个旨在评估大型语言模型智能体在重症监护室 (ICU) 环境中推理能力的新基准。与依赖临床医生行为作为真实情况的先前基准不同,RealICU 使用资深医生回顾完整患者病史的滞后标注来创建更准确的标签。该基准测试包括评估患者状况、识别急性问题和标记不安全行为等任务。初步测试表明,即使是具有记忆增强功能的当前 LLM,表现也很差,突显了回忆-安全权衡和锚定偏差方面的问题。