PulseAugur
实时 08:33:23
实体 ClinEnv

ClinEnv

PulseAugur coverage of ClinEnv — every cluster mentioning ClinEnv across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_65089 ·

    新基准 ClinEnv 测试 LLM 作为模拟医生

    研究人员推出 ClinEnv,这是一个新颖的交互式基准,旨在评估大型语言模型 (LLM) 在模拟临床环境中的表现。该环境向 LLM 提供真实住院患者的入院信息,要求它们扮演主治医生的角色,必须按顺序收集信息并在不确定性下做出不可逆的决定。与静态基准不同,ClinEnv 允许模型在每个阶段主动查询专业智能体,从而更真实地评估决策和信息收集过程。对七个模型的初步评估显示存在显著差距,表现最好的模型仅获得 0.31 的决策 F1 分数,凸显…