新的 PersianMedQA 基准测试 LLM 的双语医学推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-27 04:00

研究人员推出了 PersianMedQA，这是一个新的基准数据集，旨在评估大型语言模型 (LLM) 在波斯语和英语方面的医学问答能力。该数据集包含来自伊朗医学考试的 20,000 多个专家验证的多项选择题，涵盖 23 个专业。通过对 41 个模型进行基准测试，研究发现 GPT-4.1 等闭源通用模型表现最佳，而专门的波斯语 LLM 则表现不佳。研究还强调，一些医学细微差别在翻译中会丢失，因此波斯语特有的答案至关重要。 AI

影响该基准将推动低资源语言和医学等专业领域的 LLM 性能改进。

排序理由该集群描述了一篇介绍用于评估 LLM 的基准数据集的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Mohammad Javad Ranjbar Kalahroodi, Amirhossein Sheikholselami, Sepehr Karimi, Sepideh Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery · 2026-05-27 04:00

PersianMedQA: Evaluating Large Language Models on a Persian-English Bilingual Medical Question Answering Benchmark

arXiv:2506.00250v4 Announce Type: replace Abstract: Large Language Models (LLMs) have achieved remarkable performance on a wide range of Natural Language Processing (NLP) benchmarks, often surpassing human-level accuracy. However, their reliability in high-stakes domains such as …

报道来源 [1]

PersianMedQA: Evaluating Large Language Models on a Persian-English Bilingual Medical Question Answering Benchmark

相关实体

相关话题