研究人员开发了SurgMLLM,一个新颖的框架,通过整合高级推理和低级视觉定位来统一手术场景理解。该多模态大语言模型(MLLM)经过微调,可处理手术视频,使其能够联合建模手术阶段、器械-动词-目标三元组及其精确分割。该系统在CholecT45-Scene数据集上取得了显著的改进,将三元组识别指标AP_IVT从40.7%提升到46.0%,并在阶段识别和分割方面超越了现有方法。 AI
影响 通过实现对手术视频更全面的理解,增强了AI在医疗程序中的能力。
排序理由 该集群包含一篇详细介绍用于手术场景理解的新框架和模型的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →