研究人员推出了MedCTA,一个旨在评估AI代理在临床环境中能力的新的基准测试。该基准测试侧重于需要规划、工具检索和证据获取的任务,超越了简单的识别或单轮问答。MedCTA包含107个真实世界的临床任务,涵盖了五个已部署工具的临床医生验证轨迹,评估了工具选择、执行稳定性和结果质量等方面。对18个模型的初步基准测试显示,即使是先进的系统在多步临床工具使用方面也存在困难,表现出协议失败和错误工具调用的问题。 AI
影响 突显了当前临床AI代理可靠使用工具能力的局限性,表明需要改进医疗保健领域的代理行为。
排序理由 该集群描述了一篇介绍AI代理基准测试的新学术论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →