PulseAugur
实时 16:59:31

新的 PersianMedQA 基准测试 LLM 的双语医学推理能力

研究人员推出了 PersianMedQA,这是一个新的基准数据集,旨在评估大型语言模型 (LLM) 在波斯语和英语方面的医学问答能力。该数据集包含来自伊朗医学考试的 20,000 多个专家验证的多项选择题,涵盖 23 个专业。通过对 41 个模型进行基准测试,研究发现 GPT-4.1 等闭源通用模型表现最佳,而专门的波斯语 LLM 则表现不佳。研究还强调,一些医学细微差别在翻译中会丢失,因此波斯语特有的答案至关重要。 AI

影响 该基准将推动低资源语言和医学等专业领域的 LLM 性能改进。

排序理由 该集群描述了一篇介绍用于评估 LLM 的基准数据集的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的 PersianMedQA 基准测试 LLM 的双语医学推理能力

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Mohammad Javad Ranjbar Kalahroodi, Amirhossein Sheikholselami, Sepehr Karimi, Sepideh Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery ·

    PersianMedQA: Evaluating Large Language Models on a Persian-English Bilingual Medical Question Answering Benchmark

    arXiv:2506.00250v4 Announce Type: replace Abstract: Large Language Models (LLMs) have achieved remarkable performance on a wide range of Natural Language Processing (NLP) benchmarks, often surpassing human-level accuracy. However, their reliability in high-stakes domains such as …