English(EN) I benchmarked 8 LLMs for medical scribing. Hallucinations were rare; omissions need attention.

大型语言模型医疗记录员基准测试：遗漏多于幻觉

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-23 16:20

对八个用于医疗记录的大型语言模型的基准测试显示，虽然高影响力的幻觉很少见，但遗漏临床相关细节的情况却普遍得多。对 300 个合成医生-患者对话的评估发现，有 520 个遗漏了安全事实的实例，而确认的幻觉有 12 个。GPT-5.4-mini 等模型在成本和速度方面表现良好，而 Claude Sonnet 和 DeepSeek 在文本质量方面表现出色，尽管 DeepSeek 遗漏了许多安全事实。Claude Opus 尽管遗漏较少，但文本质量较差，而 Kimi 则因速度慢且成本高而受到关注。 AI

影响强调了 AI 医疗记录领域的一个关键改进领域：减少安全关键信息的遗漏，这种情况比幻觉更普遍。

排序理由该项目描述了对特定应用的现有大型语言模型的基准测试和评估，而不是新的模型发布或重大的行业事件。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

r/LocalLLaMA TIER_1 English(EN) · /u/MajesticAd2862 · 2026-06-23 16:20

我为8款大语言模型进行了医疗记录书写基准测试。幻觉很少见；遗漏问题需关注。

<table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1udlrmf/i_benchmarked_8_llms_for_medical_scribing/"> <img alt="I benchmarked 8 LLMs for medical scribing. Hallucinations were rare; omissions need attention." src="https://preview.redd.it/hl9f6k82529h1.png?wid…

报道来源 [1]

我为8款大语言模型进行了医疗记录书写基准测试。幻觉很少见；遗漏问题需关注。

相关实体

相关话题