对八个用于医疗记录的大型语言模型的基准测试显示,虽然高影响力的幻觉很少见,但遗漏临床相关细节的情况却普遍得多。对 300 个合成医生-患者对话的评估发现,有 520 个遗漏了安全事实的实例,而确认的幻觉有 12 个。GPT-5.4-mini 等模型在成本和速度方面表现良好,而 Claude Sonnet 和 DeepSeek 在文本质量方面表现出色,尽管 DeepSeek 遗漏了许多安全事实。Claude Opus 尽管遗漏较少,但文本质量较差,而 Kimi 则因速度慢且成本高而受到关注。 AI
影响 强调了 AI 医疗记录领域的一个关键改进领域:减少安全关键信息的遗漏,这种情况比幻觉更普遍。
排序理由 该项目描述了对特定应用的现有大型语言模型的基准测试和评估,而不是新的模型发布或重大的行业事件。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →