研究人员推出了 PersianMedQA,这是一个新的基准数据集,旨在评估大型语言模型 (LLM) 在波斯语和英语方面的医学问答能力。该数据集包含来自伊朗医学考试的 20,000 多个专家验证的多项选择题,涵盖 23 个专业。通过对 41 个模型进行基准测试,研究发现 GPT-4.1 等闭源通用模型表现最佳,而专门的波斯语 LLM 则表现不佳。研究还强调,一些医学细微差别在翻译中会丢失,因此波斯语特有的答案至关重要。 AI
影响 该基准将推动低资源语言和医学等专业领域的 LLM 性能改进。
排序理由 该集群描述了一篇介绍用于评估 LLM 的基准数据集的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →