研究人员开发了一个新的基准来评估大语言模型(LLMs)在波兰医学考试中的表现,通过增加超过15,000个问题和结构性修改来扩展数据集,以更好地评估超越简单选择题猜测的真实能力。他们的研究发现,在新的、更具挑战性的评估设置下,表现最好的模型Qwen3.5-122B的得分显著下降。研究结果表明,由于偏见和测试设计,当前医学领域大语言模型的评估可能高估了它们的能力,并且新的基准正在公开提供。 AI
影响 新的评估方法挑战了当前大语言模型的性能指标,表明在医学等专业领域需要更严格的测试。
排序理由 该集群包含一篇学术论文,介绍了大语言模型的新基准和评估方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →