PulseAugur
实时 02:24:03
English(EN) I benchmarked 8 LLMs for medical scribing. Hallucinations were rare; omissions need attention.

大型语言模型医疗记录员基准测试:遗漏多于幻觉

对八个用于医疗记录的大型语言模型的基准测试显示,虽然高影响力的幻觉很少见,但遗漏临床相关细节的情况却普遍得多。对 300 个合成医生-患者对话的评估发现,有 520 个遗漏了安全事实的实例,而确认的幻觉有 12 个。GPT-5.4-mini 等模型在成本和速度方面表现良好,而 Claude SonnetDeepSeek 在文本质量方面表现出色,尽管 DeepSeek 遗漏了许多安全事实。Claude Opus 尽管遗漏较少,但文本质量较差,而 Kimi 则因速度慢且成本高而受到关注。 AI

影响 强调了 AI 医疗记录领域的一个关键改进领域:减少安全关键信息的遗漏,这种情况比幻觉更普遍。

排序理由 该项目描述了对特定应用的现有大型语言模型的基准测试和评估,而不是新的模型发布或重大的行业事件。[lever_c_demoted from research: ic=1 ai=1.0]

在 r/LocalLLaMA 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

大型语言模型医疗记录员基准测试:遗漏多于幻觉

报道来源 [1]

  1. r/LocalLLaMA TIER_1 English(EN) · /u/MajesticAd2862 ·

    我为8款大语言模型进行了医疗记录书写基准测试。幻觉很少见;遗漏问题需关注。

    <table> <tr><td> <a href="https://www.reddit.com/r/LocalLLaMA/comments/1udlrmf/i_benchmarked_8_llms_for_medical_scribing/"> <img alt="I benchmarked 8 LLMs for medical scribing. Hallucinations were rare; omissions need attention." src="https://preview.redd.it/hl9f6k82529h1.png?wid…