研究人员推出 ClinEnv,这是一个新颖的交互式基准,旨在评估大型语言模型 (LLM) 在模拟临床环境中的表现。该环境向 LLM 提供真实住院患者的入院信息,要求它们扮演主治医生的角色,必须按顺序收集信息并在不确定性下做出不可逆的决定。与静态基准不同,ClinEnv 允许模型在每个阶段主动查询专业智能体,从而更真实地评估决策和信息收集过程。对七个模型的初步评估显示存在显著差距,表现最好的模型仅获得 0.31 的决策 F1 分数,凸显了临床推理和管理方面亟待改进。 AI
影响 该基准可以加速开发更强大的 AI 智能体,以应对医疗保健等专业领域中复杂的、顺序性的决策任务。
排序理由 这是一篇描述用于评估 LLM 的新基准环境的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 arXiv cs.MA (Multiagent) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →