研究人员开发了 VietMed-MCQ,一个旨在评估大型语言模型(LLMs)在越南传统医学方面能力的新数据集。该数据集是使用检索增强生成(RAG)管道和一种新颖的一致性检查机制生成的,以确保准确性。对七个开源模型的基准测试显示,具有强大中文先验知识的模型表现优于以越南语为中心的模型,表明了跨语言知识转移的潜力,尽管复杂的诊断推理对所有模型来说仍然是一个挑战。 AI
影响 提供了一个专门的基准,以提高大型语言模型在资源匮乏、具有特定文化背景的医学领域的性能。
排序理由 该集群包含一篇详细介绍新数据集和评估框架的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →