English(EN) A Scoping Review of LLM-as-a-Judge in Healthcare and the MedJUDGE Framework

医疗保健领域LLM-as-a-Judge面临安全性和偏见担忧

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-30 04:00

对大型语言模型作为裁判（LLM-as-a-Judge, LaaJ）在医疗保健领域应用的范围审查，发现了验证严谨性和安全性评估方面存在的重大差距。该审查筛选了超过11,000项研究，发现虽然LaaJ为专家评审提供了一种可扩展的替代方案，但大多数研究缺乏彻底的偏见测试、人工监督和时间稳定性评估。为解决这些问题，研究人员提出了MedJUDGE框架，这是一个旨在指导临床环境中LaaJ系统评估和治理的三支柱系统。 AI

影响强调了在医疗保健评估中使用LLM在验证和安全方面存在的关键差距，有必要建立像MedJUDGE这样的新治理框架。

排序理由学术论文，提出一个用于评估医疗保健领域LLM-as-a-Judge系统的新框架。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Chenyu Li, Zohaib Akhtar, Mingu Kwak, Yuelyu Ji, Hang Zhang, Tracey Obi, Yufan Ren, Xizhi Wu, Sonish Sivarajkumar, Harold P. Lehmann, Shyam Visweswaran, Michael J. Becich, Danielle L. Mowery, Renxuan Liu, Haoyang Sun, Yanshan Wang · 2026-04-30 04:00

LLM-as-a-Judge 在医疗保健中的范围审查与 MedJUDGE 框架

arXiv:2604.25933v1 Announce Type: cross Abstract: As large language models (LLMs) increasingly generate and process clinical text, scalable evaluation has become critical. LLM-as-a-Judge (LaaJ), which uses LLMs to evaluate model outputs, offers a scalable alternative to costly ex…

报道来源 [1]

LLM-as-a-Judge 在医疗保健中的范围审查与 MedJUDGE 框架

相关实体

相关话题