研究人员开发了 Seizure-Semiology-Suite (S3),这是一个新的数据集和基准,旨在评估多模态大语言模型 (MLLM) 从视频理解复杂癫痫半肢体学能力。S3 数据集包含 438 个癫痫视频和超过 35,000 个标签,支持一个七任务基准,评估 MLLM 在从视觉感知到临床报告的各种性能方面。对 11 个开源 MLLM 的初步评估显示,在侧别推理和时间定位等方面存在明显不足,尽管针对癫痫的微调显示出改进的潜力。 AI
影响 为评估安全关键型医疗视频分析中的多模态 AI 建立了新的基准,指导临床可靠性的发展。
排序理由 学术论文,介绍用于多模态 LLM 在医学领域评估的新数据集和基准。 [lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →