PulseAugur
实时 16:49:59
English(EN) How Good LLMs Are at Answering Bangla Medical Visual Questions? Dataset and Benchmarking

大型语言模型难以处理孟加拉语医学视觉问题,新数据集显示

研究人员开发了BanglaMedVQA,这是一个旨在评估大型语言模型(LLMs)和大型视觉语言模型(LVLMs)在孟加拉语医学视觉问答能力的新数据集。他们的基准测试显示,即使是Gemini和GPT-4.1 mini等领先模型在处理孟加拉语的诊断问题时也面临显著困难,这凸显了低资源语言在专业领域所面临的挑战。虽然一些开源模型在一般类别中表现出潜力,但它们在临床复杂查询方面也表现不佳,表明需要改进评估方法和模型能力。 AI

影响 凸显了当前大型语言模型在处理低资源语言的专业医学查询方面的显著局限性,表明需要改进多语言和领域特定推理能力。

排序理由 该集群包含一篇学术论文,介绍了用于评估大型语言模型在特定任务上表现的新数据集和基准测试结果。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

大型语言模型难以处理孟加拉语医学视觉问题,新数据集显示

报道来源 [1]

  1. arXiv cs.CV TIER_1 English(EN) · Md Farhad Alam Bhuiyan ·

    How Good LLMs Are at Answering Bangla Medical Visual Questions? Dataset and Benchmarking

    Recent advancements in Large Language Models (LLMs) and Large Vision Language Models (LVLMs) have enabled general-purpose systems to demonstrate promising capabilities in complex reasoning tasks, including those in the medical domain. Medical Visual Question Answering (MedVQA) ha…