PulseAugur
实时 18:24:45
实体 PersianMedQA

PersianMedQA

PulseAugur coverage of PersianMedQA — every cluster mentioning PersianMedQA across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
最近 · 第 1/1 页 · 共 1 条
  1. TOOL · CL_53826 ·

    新的 PersianMedQA 基准测试 LLM 的双语医学推理能力

    研究人员推出了 PersianMedQA,这是一个新的基准数据集,旨在评估大型语言模型 (LLM) 在波斯语和英语方面的医学问答能力。该数据集包含来自伊朗医学考试的 20,000 多个专家验证的多项选择题,涵盖 23 个专业。通过对 41 个模型进行基准测试,研究发现 GPT-4.1 等闭源通用模型表现最佳,而专门的波斯语 LLM 则表现不佳。研究还强调,一些医学细微差别在翻译中会丢失,因此波斯语特有的答案至关重要。