研究人员开发了MRI-Eval,这是一个旨在评估大型语言模型对MRI物理和GE扫描仪操作理解能力的新基准。该基准包含三个难度级别的1365个问题,结果显示,尽管模型在标准的单项选择题上表现出色,但在自由文本回忆测试中,尤其是在供应商特定的操作知识方面,其准确性显著下降。这表明在传统测试中的高分可能掩盖了实际应用中的局限性,在使用LLM输出进行关键指导时需要谨慎。 AI
影响 强调了LLM在专业技术领域的潜在局限性,建议在使用关键操作指导时需谨慎。
排序理由 该集群包含一篇介绍LLM评估新基准的学术论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →