实体 PersianMedQA

PersianMedQA

PulseAugur coverage of PersianMedQA — every cluster mentioning PersianMedQA across labs, papers, and developer communities, ranked by signal.

总计 · 30天

1

90 天内 1

发布 · 30天

0

90 天内 0

论文 · 30天

1

90 天内 1

层级分布 · 90 天

主题

最近 · 第 1/1 页 · 共 1 条

TOOL · CL_53826 · May 27 · 04:00

新的 PersianMedQA 基准测试 LLM 的双语医学推理能力

研究人员推出了 PersianMedQA，这是一个新的基准数据集，旨在评估大型语言模型 (LLM) 在波斯语和英语方面的医学问答能力。该数据集包含来自伊朗医学考试的 20,000 多个专家验证的多项选择题，涵盖 23 个专业。通过对 41 个模型进行基准测试，研究发现 GPT-4.1 等闭源通用模型表现最佳，而专门的波斯语 LLM 则表现不佳。研究还强调，一些医学细微差别在翻译中会丢失，因此波斯语特有的答案至关重要。