研究人员推出了MedMosaic,这是一个旨在评估医疗领域语言和音频推理模型的新基准数据集。该数据集包含多种类型的医疗音频和超过46,000个问答对,用于测试多跳推理和生成能力。初步评估显示,即使是像Gemini-2.5-pro这样的先进模型在医疗推理任务上也面临困难,这凸显了对更专业的多模态模型的需求。 AI
影响 凸显了当前多模态模型在专业医疗推理任务中的局限性。
排序理由 用于评估AI模型在医疗音频推理能力的新基准数据集。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →